정보공간_1

[2기 수원 곽지혜] Data Visualization 본문

IT 놀이터/Elite Member Tech & Talk

[2기 수원 곽지혜] Data Visualization

알 수 없는 사용자 2012. 9. 25. 02:21

 

 최근 정보 시각화(Information Visualization)에 대해서 공부하고 있습니다. 학교 수업을 듣는 중에 관심을 갖게 되어 공부하게 되었는데요, 가트너의 2012 신기술 하이프 사이클에서 언급한 바와 같이 빅데이터는 최근 가장 빠르게 발전하고 있는 기술입니다.

 이에 따라 주목받고 있는 주요기술은 빅데이터 처리를 위한 서버사이드와 빅데이터를 어떻게 하면 의미있는 정보로 보일 수 있는지에 대한 정보 시각화 부분이 아닌가 합니다.

 

 

 소프트웨어를 공부하는 사람들에게는 정보시각화는 UX영역이나 디자인 영역이라고 생각을 할 수 도 있을 것입니다. 저도 처음 이 분야를 접할 때는 UX영역에 많은 의미가 있는 분야가 아닌가 했습니다. 그러나 좀 더 알아보니 정보 시각화는 소프트웨어에 관한 학문적 연구 영역에도 속해 있었습니다.

 정보 시각화는 소프트웨어뿐만 아니라 앞으로는 다양한 분야에 응용하여 적용할 수 있기 때문에 새로운 학문으로 자리잡을 수 있을 것이라고 생각합니다. 따라서, 정보 시각화가 무엇인지, 어떻게 데이터를 표현해야 하는지, 시각화 하는 도구는 어느것이 있는지에 대해 이야기 해보려고 합니다.

 

 

Definition – 정보 시각화가 무엇인가?

정보 시각화란 소프트웨어가 급속도로 발전하기 시작하면서 나온 영역으로 소프트웨어에 관한 학문 연구 영역이다. 방대한 양의 정보를 한번에 사용자가 보고 탐험하고 이해하도록 시각적 표현 방법과 인터렉션 기술들을 이용하여 추상적 정보를 직관적 방법으로 전달하기 위한 접근 방법을 창조하는 것에 초점을 맞춘다.

 

 

Expression – 데이터 표현

 정보 시각화에 대해서 공부하던 중 전문가들이 알려주는 데이터 시각화의 비법 아름다운 시각화 라는 책을 접하게 되었다. 앞서 정의에서 살펴본 정보시각화에 대한 구체적인 내용이 담겨있는데, 저자는 정보를 전달하는 표현을 아름다운 시각화라고 이름지었다. Beautiful Visualization의 줄리 스틸의 말을 인용하자면, “우리에게 아름다운 시각화란 무엇 일까? 정보가 가지는 여러가지 역할과 기능이 있지만, 아름다운 시각화를 만족하려면 다음의 세가지 조건을 충족해야 한다.

 참신성 : 데이터를 접하는 사람의 관심과 흥미를 이끄는 시각화, 효율성 : 명백한 목적과 관점이 있는 시각화, 정보성 : 정보를 전달하는데 중요한 목적이 있는 시각화. 하지만, 이러한 세가지 요소를 만족한다고 해서 모두 아름다운 시각화는 아닐 것이다.

 아름다운 시각화는 중요한 세가지 요소를 만족하면서 정보의 특징과 관계를 잘 표현해야 한다. 우리가 잘 알고 있는 내용에서 아름다운 시각화를 찾아보자면 멘델레예프의 주기율표와 지하철 노선도가 있다.

 

 

 화학 첫 시간에 배우는 주기율표는 누구나 접해 보았을 것이다. 주기율표에는 보이는 것보다 많은 내용을 담고 있다. 하지만 직관적으로 그 내용을 파악 할 수 있다. 그 이유는 시각화에 있다. 주기율표는 확실히 정보성이 있으며, 분명히 효율적이다. 그리고 이전에는 없었던 색다른 접근 방식을 택했다는데 그 의미가 있지 않을까 싶다.

 또한, 앞서 언급한 내용처럼 주기율표는 원소간의 관계화 속성을 고려하여 배치하고 있다. 같은 주기에 있는 원소들의 특징, 같은 족에 속해 있는 원소들의 특징, 위치에 따른 원소의 특징을 우리는 한눈에 파악 할 수 있다.  또 다른 아름다운 시각화 예로는 런던 지하철 지도가 있다.

 

 

 현재는 런던 뿐만이 아니라 거의 모든지역의 지하철 노선도는 비슷하게 표현되고 있다. 이러한 시각화를 한 사람은 Henry Beck이라는 전기회로 도안 제작자이다. 전기회로 표현에 익숙한 그는 이전의 지리정보에 따른 노선도에서 벗어나, 지하철의 상황과 특징에 주목하여 표현 하였다.

 불필요한 내용은 과감히 삭제하고 적절한 정보에 대해서는 접근성을 높였다. 이와 같은 두가지 사례에서 우리가 주목해야할 사실은 무엇일까? 내가 생각하는 중요한 점은 두가지가 있다. 첫 번째는 분야가 소프트웨어든 어디든 표현의 중요성 즉 데이터의 관계와 특징이 무엇인지 잘 파악해야한다는 점이고, 두번째는 생각의 확장이다.

 전기회로를 그리던 사람이 어떻게 지하철 노선도를 만들어 낼 수 있었을까? 자신의 분야를 다른 분야에도 적용시켜보는 생각의 확장에서 나온 걸작이 아닐까 한다. 런던 지하철 노선도에서 시작되었지만, 전세계 사람들이 매일 이용하는 지하철 노선도의 표준이 되었다.

 

Visualization Tools – 시각화 도구

앞의 내용은 소프트웨어에 관한 학문 연구 분야인 정보 시각화에 대한 기초적인 내용에 대해 이해를 돕기위한 내용이다. 소프트웨어적인 관점에서 표현하자면 빅데이터를 어떠한 방법으로” “어떻게 보여 줄 것인가?” 라는 두가지 요점을 생각 해야한다.

 전자는 빅데이터 처리를 위한 알고리즘과 어떤 서버를 활용할 것인가 라는 방법 등에 대해서 생각 해 볼 수 있을 것이고, 후자는 시각화 방법에 대해서 초점을 맞출 것이다. 이 포스팅은 조금은 생소 할 수 있는 후자에 대해서 이야기 하고자 한다.

 

                                     

 

 다음은 Beautiful Visualization에서 Jer Thorp라는 사람의 글을 통해 알아본 내용이다. 저자는 “1994년에 있었던 일이라는 제목으로 이 글을 시작한다. API Processing을 활용한 시각화 이다. API를 통해 정보를 얻고, Processing을 통해 데이터를 표현한다. 방법을 요약하자면 다음과 같다.

1.     API를 통해 정보를 얻는다. (NY times API 활용)

2.     Library를 활용하여 원하는 데이터를 파싱하여 얻는다. (Processing json Library)

3.     정보를 시각화 한다. (Jer Thorp의 예시 참조)

+http://blog.blprnt.com/source-code-tutorial 이 곳을 활용하면 자세한 내용을 파악할 수 있습니다.

 

 데이터를 파싱할 때, 사용자는 Query를 통해 데이터를 간추려 낼 수 있다. 바로 이 작업이 가장의미있는 작업이 아닌가 한다. 예제에서는 유효한 정보를 처리하기 위해 패싯(Pecet)을 활용한다. 원하는 질의를 통해서 이에 해당하는 내용을 리턴 받을 수 있다.

 Jer Thorp의 글을 토대로 Barack Obama와 올해 미국에 강제진출한 가수 싸이(PSY)에 대한 내용을 뉴욕 타임즈의 API Processing을 활용하여 시각화 해 보았다. 테스트용으로 사용한 Query는 간단하게 검색 날짜 범위와, 사람 이름이다. 사람 이름으로 검색하면 그와 관련된 기사의 빈도수와 관련 인물을 토대로 시각화가 가능한 Library를 사용하였다.

 

 

 그 결과, OBAMA의 경우 뉴욕타임즈에 기사화 된 경우와 빈도수도 높아서 아래의 결과처럼 다양한 연관 링크가 생기고, PSY의 경우에는 최근9월에 이슈화 된 인물로 그리 많지 않은 링크를 보인다. PSY의 이름이 가장 크게 나오지 않은 것으로 보아 PSY의 영향력 보다는 Chris Brown이나 Rihanna의 영향력이 더 큰것으로 파악된다. Processing을 통해서 원하는 정보에 대해서 시각화 할 수 있었다.

 

 

 

 

 

Example – 활용 예시

 이러한 정보시각화를 이용한 사례를 찾아보았습니다. 혹시 NAVERNAVER LAB을 아시나요? 이 곳에서는 다양한 내용의 연구와 새로운 기술들을 활용할 수 있는 서비스를 제공합니다.

 

 

 

 서비스 중에서는 빅데이터를 분석하여 데이터를 표출해주고 있습니다. 바로 이러한 부분에서 정보의 시각화가 두각을 나타냅니다. “한국영화 사회망이라는 서비스를 예시로 보겠습니다. 검색창에 영화나 배우를 검색하면 배우간의 관계도에 대한 시각화가 나오고, 배우 전체 사회망을 살펴보면, 컴포넌트 커뮤니티 네트워크 순서로 데이터를 표출해 주기도 합니다. 이 서비스의 주된 포커스는 배우와 영화의 관계속에 있습니다. 친분보다는 영화에 따른 네트워크 형성에 대해서 보여주고 있습니다.

 배우 하정우에 대한 사회망은 어떠한가에 대해서 알아보았다고 가정해 보겠습니다. 데이터를 텍스트 열거형으로 보여주는 것과 유기적인 관계를 보여주며 보다 효과적인 시각화를 활용하여 표현하는 두가지 방법중 어떠한쪽이 직관적이며 이해가 쉬울까요?

 데이터 시각화를 한마디로 표현하자면, “이해와 배려라고 말하고 싶습니다. 방대한 양의 데이터를 있는 그대로 보여주기 보다 User에게 직관적으로 표현해 준다면 그 이해도는 높아질 것이고, 어떠한 기준으로 필터링하고 분류 및 가공 하는지에 따라 의미있는 정보가 될 수 있는 배려가 담긴 학문이라고 생각 합니다. 포스팅을 작성하면서 앞으로 의미 있는 시각화에 대한 중요성과 필요성을 다시금 깨닫게 되었습니다. 아래는 참고한 링크들 입니다. 이곳에도 관련된 내용이 잘 나와 있으니 활용하시면 좋을 것 같습니다.^^

 

 

 

Reference – 관련링크

위키피디아 + http://en.wikipedia.org/wiki/Visualization_%28graphic%29

한국영화 사회망 + http://t.lab.naver.com/movie_network/

인포그래픽&데이터비주얼라이제이션 컨퍼런스 관련 + http://vvdesignstudio.tistory.com/173

네이버랩 + http://lab.naver.com/item/

프로세싱 + http://processing.org/

도서 + Beautiful Visualization- 줄리 스틸/노아 일린스키