2021년 데이터 활용 아이디어 & 시각화 경진대회
공모분야 : 아이디어 제안 / 시각화 스토리텔링
일시 : 2021.09.13 ~ 11.30
주최 : 과학기술정보통신부
주관 : 한국데이터산업진흥원
해당 공모전은 데이터안심구역에 있는 데이터를 활용하는 조건으로, 분석 자체도 데이터안심구역 내에서만 가능했다.
그곳에서는 인터넷을 사용할 수 없어서 검색에 크게 의지하고있는 나로서는 정말 험난한 여정이었다....
개인으로 참가했기 때문에 기획부터 분석, 결과보고서 작성까지 오롯이 내 몫이어서 더 험난했음... :-]
지난 프로젝트를 경험하면서 '하는 만큼 실력이 느는구나!'를 새삼 느꼈기 때문에 이번에는 모든 과정을 혼자서 해보고 싶었다.
과정 자체가 배움이니까 큰 욕심 없이 '서류 제출'만을 목표로 삼았다.
10월 19일부터 11월 9일까지 주 2회 정도 안심구역을 방문했다.
방문하지 못하는 날은 분석 방법이나 코드를 공부하고, 비슷한 데이터 파일을 만들어서 테스트했다. (데이터 외부 반출이 불가함)
결과적으로 발표심사를 거쳐 최우수상을 받았다.
서류 제출이 목표였는데 이렇게까지 큰 성취감으로 돌아올 줄이야...(!)
이제 막 입문한 나로서는 심사위원분들과 마주하고 피드백을 받을 수 있는 발표심사 기회가 너무 소중했고, 정~말 떨렸지만 유익했다.
'데이터분석 공부를 계속해보라는 계시인가..!' 라며 괜히 의미 부여도 해보았다.ㅎㅎ
회사에서 케이크 먹으며 축하도 받고, 여러모로 나 자신을 더욱 응원하는 계기가 되었다.
PPT보기 https://ryu09.notion.site/af799e6c949c4cbd877697a9fd77b664?v=ee1b36ee293b4e1ba7cd6457cb0b0616
[ 주제선정 & 분석배경 ]
주제 : 서울시 공공 리필스테이션 시범운영을 위한 최적입지 분석
- 첫 프로젝트가 '입지 선정'이었기 때문에, 이 주제를 벗어나고 싶어서 분석 사례를 찾아 읽고, 온갖 공모전 결과들을 살펴봤지만 쉽지 않았다.
함께 인턴 근무하고 있는 교육생 동료와도 얘기를 나눴는데, 최적입지 선정이 아니라면 어떤 결론을 맺어야 하는지 감이 잡히지 않았다.
결국 한정된 시간, 한정된 장소에서 분석한다는 부담감을 느끼며 입지 선정을 선택했고,
대신에 요인분석, 상권분석 등 새로운 과정을 추가해서 경험을 확장시키고자 했다.
- 데이터안심구역에서 제공하는 데이터를 훑어보면서 내가 재미있게 뛰어들만한 주제가 무엇일까 고민했다.
카드소비, 택배송장정보와 같은 데이터에서 아이디어를 얻어 평소에 관심 있는 '리필스테이션'을 소재로 선택했다.
- 평소에 관심있는 분야여서 할 말이 정말 많았는데, '아이디어 제안' 분야에 응했기 때문에 자유롭게 이야기를 펼칠 수 있었다.
제로웨이스트 트렌드, MZ세대의 미닝아웃, 플라스틱 폐기물 문제, 작년에 실시했던 '화장품 어택' 성명, 기업의 ESG 경영 등...
- 서울시의 <1회용 플라스틱 없는 서울>(2018년~), <제로웨이스트 문화 확산>(2022년) 정책도 적극 어필했다. (정책 기조 따라가기)
- 리필스테이션은 민간에 의해 운영되는 경우 수익창출이 어렵고, 대기업 제조사에 의해 운영되는 경우 자사 제품만 판매하거나
리필 용기를 따로 구입해야 해서 소비자로서 '이게 환경을 위한 게 맞나..?' 싶은 생각이 든다.
그래서 공공 영역에서의 리필스테이션 운영을 제안하기로 했다.
[ 활용 데이터 & 전처리 ]
- 데이터안심구역의 데이터를 활용하는 게 공모전의 취지인 만큼, 최대한 많은 데이터를 살펴보고 활용했다.
- 리필스테이션에서 취급하는 품목을 고려해서, 화장품/택배송장 데이터를 전처리할 때 바디케어/스킨케어/세제 품목 데이터만 추렸다.
또한 해당 제품이 꾸준히 구매해야 하는 '생필품'이라는 것을 분명히 인지하고 분석을 진행했는데
정작 발표 심사 때는 '화장품만 고려한 것이냐'는 질문을 받았다..
화장품이라는 워딩이 파운데이션이나 립스틱같은 메이크업 제품들을 떠올리게 했던 것 같다.
데이터를 선정하고 전처리하는 과정을 조금 더 분명하게 기재할 걸! 싶었다. (역시 데이터분석은 커뮤니케이션...!!)
[ 분석 과정 ]
상관분석 ▶ 요인분석 ▶ 군집분석(클러스터링) ▶ 상권분석 ▶ 최적입지 선정
- 활용할 수 있는 데이터가 많았던 만큼 현황분석 단계에서 다양한 시각화를 해볼 수 있었을 것 같은데
프로젝트를 진행했던 당시에는 그럴 여유조차 없었다. 쪼끔 더 공부한 현시점에서 생각하니 조금 아쉽다.
- 외부 데이터 반입은 가능해서 '스마트 서울맵'을 이용해 제로웨이스트 상점 분포를 이용했다.
몇 개 되지 않아서 복붙하며 데이터를 만들었는데, 조금 더 여유가 있었다면 공부할 겸 크롤링을 시도했을 것이다.
- 상관분석 결과 상관관계가 높은 변수 쌍이 다수 존재했다. 또한 다른 분석사례에서 접한 '차원의 저주'를 고려해서
차원을 축소할 방법을 찾았다. ①필요한 변수만 선택 ②변수들을 조합하여 새로운 변수 추출
나는 후자를 선택했다.
리필스테이션에 관련된 선행연구가 거의 없다시피 하니까, 요인분석을 통해 설명요인을 주관적으로나마 설명하고자 했다.
공모전 취지에 따라 최대한 많은 변수를 사용하고자 하는 욕심도 있었다.
- 요인분석은 주관적인 의견을 포함해서 그런지 과정이 재미있었다.
- 군집분석은 K-means++, Spectral, DBSCAN을 테스트했고, 스케일러도 Standardization, Min-Max, Robust 세 가지를 돌려봤다.
다른 분석사례를 보면서도 느끼는 건데 어떤 기법들을 얼마큼 테스트해야 하는지 아직 잘 모르겠다.
적절한 기법을 선택하기 위해서 통계 이론도 함께 공부해야 할 필요성을 느꼈다.
- 최적입지를 선정하는 마지막 단계에서 '서울시 우리마을가게 상권분석 서비스'를 이용했다.
상권변화, 매출변화, 개업/폐업, 심지어 임대료 증감 현황까지 제공하고 있어서 여러 조건들을 따져볼 수 있었다.
[ 분석 결과 & 회고 ]
- 해당 프로젝트를 진행하는 와중에도 9월부로 규제가 풀리며 리필스테이션 운영 조건이 바뀌고, 시범운영 매장이 생기는 등 변화가 많았다.
그만큼 트렌디하고 관심받는 주제였던 듯..
- 발표심사에서 '화장품 매장뿐만 아니라 마트 입지도 같이 고려해보면 좋을 것 같다. 마트에서 팔면 좋지 않겠냐'는 피드백을 받았다.
실제 접근성을 이유로 대형마트에 리필스테이션을 설치하는 사례가 늘고 있다.
나는 공공성을 강조하고 싶었고, 내가 정의한 '공공 리필스테이션'이 제로웨이스트 문화 확산과 리사이클링/환경 교육 등을 겸하는
지역 커뮤니티로서의 역할도 했으면 해서 마트 입점은 고려하지 않았다.
하지만 이런 부분이 심사위원분들에게 분명하게 전달되지 않은 것 같다.
그리고 생각해보니 마트 문화센터같은걸 이용해서 지역 커뮤니티 역할을 수행할 수 있을 것도 같다.
- 발표자료를 만들면서 '분석 내용 및 결과'가 주가 되어야 한다는 생각에 내용을 줄이고 줄인 게 문제였나 싶다.
데이터 기법이나 수치적인 부분을 많이 보실 줄 알았는데 이와 관련된 질문이나 피드백은 전혀 없었다.
데이터 활용에 있어서 기술적인 부분이 전부는 아니라는 걸 매일 배워간다.
'프로젝트' 카테고리의 다른 글
2021.08 첫 프로젝트 회고 : 쿨링로드 입지선정 (클러스터링, AHP기법 / Python, QGIS) (0) | 2022.01.13 |
---|---|
웹어워드 코리아 평가의견 크롤링하기 (파이썬으로 동적크롤링. 스크래핑. iframe. Selenium. BeautifulSoup) (0) | 2022.01.04 |