티스토리 뷰

Google Fusion Tables (구글 퓨전 테이블)에 대해서 들어보셨나요?


엑셀파일(xls) 또는 cvs(comma separated values) tvs(tab seprated values)로 파일포맷에 들어있는 데이터를 보기 좋게(eatable) 정제하기 위한 효율적인 툴입니다. 구글에서 참 재밌는 데이터 분석 툴을 만들어놨네요. ^^


먼저 저는 블로터, #넥스트저널리즘스쿨 3일차 강의의 테마인 데이터 저널리즘(Data Journalism)을 청강하던 중 제시된 케이스 스터디를 해결하기 위해 구글 퓨전 테이블을 처음 사용해봤습니다.


예전에 D사의 웹게임 리스트를 뽑아와서 정제해야 했던 업무가 있었는데... 이 때 Google Fusion Table을 알았더라면 꽤 재미있게 Sorting을 할 수 있었을 거란 생각을 해보게 되네요. 그때는 필요한 리스트 데이터를 스크랩핑 하는데 HTML코드를 모두 가져와서 메모장의 '찾아 바꾸기' 신공으로 쓸데없는 데이터를 날려버리고 정제된 데이터쉬트파일을 추출했던 기억이 납니다.


어찌되었든, 구글 퓨전 테이블을 사용하기 위해서는 먼저 tables.googlelabs.com 으로 이동합니다. 구글 크롬 브라우저를 사용한다면 웹앱으로 등록시켜 사용할 수도 있습니다.


Create Fusion Table를 클릭하거나 웹앱으로 실행시키면 바로 데이터파일을 불러오는 창이 뜨네요. 그럼 여기서 부터 작업을 시작하면 됩니다.


예전에 엑셀로 비슷한 작업을 해본적은 많은데... 구글 퓨전 테이블은 처음 사용해보는 툴이라 설래는군요. :)


구글 퓨전 테이블을 사용해서 데이터 정렬하기


:: tables.googlelabs.com 바로가기 ::


기업에서 자주사용하는 xlss파일이 되었든... 어디서 추출한 csv이 되었든... 파일을 넣고 다음 다음 넘어가서 Finish로 퓨전 테이블 생성 프로세스를 마치면...



재밌는 데이터분석이 시작됩니다. 먼저 제가 해야할 일은... 국내에 가장 많은 언론사가 있는 지역이 어디인가를 도출해내는 것입니다. 참고로 이 자료는 교육을 위해 한국언론진흥재단에서 발행한 '2014 언론연감'의 Appendix 자료를 스크랩핑 한 것이라고 합니다.


박사님이 수업에서 알려주신 것처럼 주소지를 지도데이터(GPS)로 쓸 수 있도록 변환해봅니다.


▲ Edit -> 'Change Columns'로 주소데이터의 Type를 Location으로 수정한다


여기까지는 따라하는 것에 불과하기 때문에 매우 쉽습니다.



내친김에 지도 상으로 위치데이터를 대입시켜보면...



1000개가 넘는 데이터들이 지오코딩(Geocoding) 되고있네요 ^^ (이런... 지금이 새벽 3시인데 시간이 생각보다 오래걸리는군요.) 여기서 부터는 일일히 프로세스를 스크린샷으로 남기기 어려우니 결과만 도출해보겠습니다.



Google Fusion Tables로 시각화된 국내 언론사 관련 그래프




위에 있는 차트를 하나 뽑기 위해 얼마나 많은 시간을 소비했는지 모릅니다. 통계는 정확한 수치를 기반으로 해야 하는데... RAW데이터 엑셀 파일 안에는 주소지가 오타가 난 것이 7건 정도가 있더군요. 예를 들면 '경북'이 '경불'로 되어있고, 경기도 광주로 명시되어 있지 않고 '광주'로만 되어 있는 등 오류가 좀 많았습니다.


결국 안되겠다 싶어서 우편번호로 Sorting해서 찾아낼 수 있는 모든 데이터 오류를 수정해서 그래프를 도출해낼 수 있었습니다.



역시 서울에 언론사가 가장 많네요. 서울에는 총 699개의 인터넷 언론사가 있고, 이후로 가장 많은 지역은 경기도 지역입니다. 총 209개의 언론사가 위치하고 있네요.


Raw데이터 엑셀파일을 잘 보면 2번째 Sheet에 숨겨져 있는 통계데이터가 있었습니다. 서울시의 각 '구'의 언론사 갯수였는데요. 이걸 가지고도 연습삼아 그래프를 하나 더 만들어봤습니다.


서울시의 인터넷 언론사들은 대부분 서초구, 그리고 마포구에 밀집되어 있네요. 아래는 분포를 지도에 나타내본 결과입니다.



조금 장난을 쳐보다보니... 2011년도~2013년도로 필터링을 한 다음에 설립년도를 한눈에 구별 하고 싶어지더군요 그래서 동그라미의 색깔을 2011년도의 경우는 노란색으로, 2012년도는 푸른색, 그리고 가장 많은 2013년도는 빨간색으로 아래와 같은 옵션을 부여해서 표현해 봤습니다.


제가 찾은 방법이 정확한 방법인지는 모르지만, 위에 지도데이터를 만드는데는 아래와 같은 속성 옵션을 부여해주었습니다.


▲ 어찌어찌 하다보니 원하는 결과를 내놓는 방법을 찾았다.


추가적으로 히트맵(HeatMap)도 사용해 봤습니다. 히트맵은 좌표가 들어가 있는 지도데이터의 경우 외부로 공유하는 것은 불가능하네요.


▲ 역시 서초구에 가장 많은 언론사들이 몰려 있는 것을 알 수 있다. (데이터는 2011~2013)


해결해야 하는 문제는 2011년도부터 2013년까지 어느 지역에 가장 많은 인터넷 언론사가 생겼느냐를 도출해야 하는 것인데... 몇시간을 헤매다 보니까 알아낸 것이 아래과 같이 이중 필터링을 해준 뒤 Map데이터를 만들면 되는 거였습니다.


▲ 서초구 필터를 넣어서 총 84개의 언론사가 2011~2013년 동안 창간했다는 것을 알아낼 수 있다.



새벽 2시부터 여기까지 글을 쓰는데 5시간이 걸렸네요... 쉽지 않은 작업이었습니다. 아... 나는 밤을 새면서 뭘 한 걸까?


나중에 블로그를 통해 소개할 기회가 있을 것 같은데... 쉽게 인포그래픽을 만들 수 있는 웹서비스 infor.gram도 한번 사용해보았습니다. 꽤 다양한 서식을 적용할 수 있어서 재밌네요 ^^





* 구글 퓨전 테이블... 재미있는 데이터 분석 및 시각화 도구 중 하나입니다.


댓글
댓글쓰기 폼