메뉴 건너띄기
상단메뉴 바로가기 본문 바로가기

Login Join

S W N E W S

[서포터즈 취재일기] 데이터 시각화

  • 2019-12-27 15:16
  • |
  • SW마에스트로
[서포터즈 취재일기] 데이터 시각화

안녕하세요. 서포터즈 제3기 지미현, 채인서입니다. 여러분은 하루에 얼마나 많은 양의 정보를 접하고 계시나요? 24시간 쏟아지는 뉴스부터 시작해서 오늘날 정보는 우리가 원하든 원치 않든 끊임없이 찾아오죠. 이렇게 현대인 한 명이 하루에 접하는 정보의 양은 20세기 초의 사람이 평생 접하는 정보량에 버금간다고 합니다.

정보는 축적된 데이터에 맥락이 더해진 것이라고 할 수 있는데, 그럼 하루에 우리가 얼마나 많은 데이터를 보고 있는 건진 가늠도 되지 않네요. 오늘은 이렇게 가늠도 되지 않는 많은 양의 데이터를 어떻게 한 번에 보고, 또 어떻게 데이터의 변화를 파악할 수 있는 ‘데이터 시각화’를 통해 알아보도록 하겠습니다.



1. 데이터 시각화란

데이터 시각화(data visualization)는 데이터 분석 결과를 쉽게 이해할 수 있도록 여러 시각화 도구를 통해 정보를 효과적으로 전달하는 것을 말합니다. 데이터 시각화는 많은 양의 데이터를 요약해서 보여주기 때문에 숫자를 일일이 보지 않고도 데이터를 파악할 수 있는 장점이 있는데요, 그 덕에 데이터 인사이트를 빠르게 찾을 수 있죠. 하지만 이러한 시각화에도 약점은 있습니다. 시각화된 데이터로 보이는 현상 이면에 감추어진 맥락을 놓쳐 데이터 해석을 잘못하는 경우가 대표적이죠.

2. 데이터 시각화 종류

한편 데이터 시각화는 문제를 정의하고 문제 해결에 필요한 데이터를 수집, 전처리하는 과정을 거쳐 모델링 한 결과로 얻게 되는데요. 이러한 시각화의 종류는 시각화의 목적과 의도, 데이터의 유형에 따라 크게 5개로 나누어 볼 수 있습니다.


구분

주요 시각화 방법

시간 시각화

막대그래프, 누적 막대그래프, 점그래프

분포 시각화

파이 차트, 도우넛차트, 트리맵, 누적 연속 그래프

관계 시각화

스캐너 플롯, 버블차트, 히스토그램

비교 시각화

히트맵, 스타 차트, 평행 좌표계, 다차원 척도법

공간 시각화

지도 매핑


시간에 따라 변화하는 데이터를 표현하는 ‘시간 시각화’, 전체의 관점에서 각 부분 간의 관계(최대, 최소 등)를 표현하는 ‘분포 시각화’, 변수들 사이에 존재하는 관계를 찾는 ‘관계 시각화’, 여러 변수의 데이터 값들을 비교하는 ‘비교 시각화’, 그리고 마지막으로 지도상에 해당하는 정보를 표현하는 방법 ‘공간 시각화’가 바로 그것인데요. 그래프와 차트로 흔히 접할 수 있는 시간 시각화와 분포 시각화를 제외한 나머지 유형들을 그림으로 확인하면 아래와 같습니다.

[http://gapminder.org/world]

먼저 관계 시각화를 가장 잘 보여주는 버블차트인데요. 예시는 한스 로슬링이 전 세계의 국가별 경제적 부와 건강의 상관관계를 강연할 때 사용한 차트입니다. x축은 1인당 소득을 나타내고, y축은 기대수명, 버블의 크기는 인구수를 나타내고, 버블의 색은 6개 대륙을 표시한 것으로 소득이 높을수록 기대수명이 길어진다는 것을 확인할 수 있죠.



다음으로 비교 시각화의 대표적인 방법이라고 할 수 있는 히트맵웹사이트 방문자 분석을 위한 웹로그 분석에서 많이 활용됩니다. 방문자의 마우스 클릭을 열 분포 형태 이미지로 변환하여 사이트 이미지 위해 겹쳐 보이게 하며, 클릭이 많은 영역은 빨간색으로 적은 곳은 파란색으로 표현되기 때문에, 광고 배너를 어디에 배치해야 클릭률이 높아질지 예측하는 등에 유용하게 사용할 수 있죠.



마지막으로 공간 시각화는 지도 매핑을 통해 나타낼 수 있는데요. 예시는 KT와 서울시가 공동으로 개발한 ‘서울 생활인구’의 자치구별 인구 밀도 이미지입니다. 색깔이 진한 부분이 인구가 많은 지역으로 주민등록인구와 달리 실제 생활인구는 다른 패턴을 보인다는 해석이 가능하죠.

3. 데이터 시각화 도구

데이터 시각화를 지원하는 도구로는 마이크로소프트의 엑셀(Excel)이나 구글의 스프레드시트(Spreadsheets)처럼 데이터 관리와 그래프 작성을 위해 만들어진 도구가 있습니다. 구글의 스프레드시트는 데이터를 구글 서버에 저장하기 때문에 인터넷 접속이 가능한 어떤 컴퓨터에서도 작업이 가능한데요. 다른 사람과 실시간으로 공동 작업도 가능하고 한스 로슬링의 그래프처럼 시간의 흐름에 따라 움직이는 차트도 만들 수 있습니다.

4. 데이터 시각화의 실사례 혹은 역사상 가장 성공적이었던 시각화의 예






- 지구 바람지도

이 애니메이션 프레젠테이션은 전 세계의 바람, 날씨 및 바다 상태를 보여줍니다. 3시간마다 업데이트되는 슈퍼컴퓨터의 예측을 토대로 한 데이터 시각화의 예입니다.


- 바빌론 이후의 세계 언어

이 데이터 시각화는 세계의 현재 언어 상황에 대한 분석을 보여줍니다. 총 2,678 개의 언어가 어디서 기원하는지, 어디서 쓰이는지 그리고 사용하는 인구 수와 함께 나와 있습니다. 어족, 외래어, 차용어, 다른 언어 간에 교환된 어휘 등 언어 간의 관계까지도 보여줍니다.


- 가장 인기 있는 개는?


American Kennel Club에 따르면 개 인기에 대한 데이터 시각화를 만들기 위해 제조사들은 지성, 수명, 유전자 질환 및 기타 요소들에 대한 데이터를 검토하여 데이터 점수를 만든 다음 다양한 품종의 대중적 인기에 대비하여 그 데이터를 표시했습니다.

- 시리아에서 누가 싸우는가?


해당 데이터 시각화는 시리아에서 싸우는 국가와 그룹 간의 복잡한 관계를 간략하게 보여줍니다. 녹색 얼굴은 친구를, 빨간색은 적을, 노란색은 회색 영역을 나타냅니다.

- 미국은 전쟁에 얼마나 많은 시간을 보냈을까?

                              
                               

해당 데이터 시각화는 미국이 전쟁을 벌인 기간과 미국이 일생 동안 싸우는 전쟁을 보여줍니다. 진한 파란색은 전쟁에 소비된 백분율을 나타내고 연한 파란색은 평화에 소비된 백분율을 나타내고, 진한 빨간색은 전쟁에 소요된 시간을 나타내고, 진한 빨간색은 평화에 소요된 시간을 나타냅니다.

- Google 여행 검색

                                
                               

지난 10년 동안 전 세계 사람들이 85개국에서 1,634 개 이상의 여행지를 검색했습니다. 데이터 아티스트 Shirley Wu는 Google 뉴스 랩의 검색 데이터를 파헤쳤습니다 . 그런 다음 그 데이터를 아름다운 대화형 시각화로 바꿨습니다.

- 우리 우주에서 알려진 모든 물체의 크기 비교

                                 
                               

해당 데이터 베이스는 작은 크기에서부터 매머드에 이르기까지 단일 스케일로 배열된 물체의 상대적 크기를 보여줍니다.


이와 같이 예전부터 데이터 시각화의 중요성은 점점 부각되었고 현대에 와서는 필수적인 통계 수치 중 하나로 자리 잡았습니다. 미래의 데이터 시각화는 단순히 2D에 머물러 있는 것이 아니라 3D로 발전해 나가지 않을까요? 데이터 시각화의 미래가 기대됩니다!