본문 바로가기

본문

미운오리 같은 ‘다크 데이터’도 백조가 될 수 있다

중앙일보 2020.02.26 15:52
 
빅데이터는 4차 산업시대의 ‘석유’로 불린다. 실제로 많은 기업에서 다양한 종류의 데이터 분석을 진행한다. 소셜 데이터 트렌드 분석을 통해 상품 매출을 예상하거나, 제조 장비의 로그 데이터를 추적해 제품 생산 계획을 짜기도 한다. 공장의 무인화 시스템을 가능하게 하는 것도 다량의 데이터 세트다.  

유재연의 '인사이드 트랜D'

 
하지만 기업 입장에서 많은 양의 데이터를 무작정 모으는 것은 다소 무리가 따를 수 있다. 예전에는 데이터를 자체 서버 룸에 보관해 두는 경우가 많았지만, 최근에는 보안이나 비식별화 등의 이슈로 전문 클라우드 업체에 맡기는 경우가 많다. 그러나 연간 비용이 만만치 않다. 보관 후 활용을 하는 것은 또 다른 이슈이다. 대부분 상당한 양의 노동력을 투여해 데이터 정제 작업을 진행해야 한다. 그마저도 분석이 꼭 잘 되리라는 확신도 없다.  
 
이렇게 일상적인 기업활동에서 수집하고 모아두기는 하지만, 정작 활용을 하기에는 버거운 데이터를 ‘다크 데이터(Dark data)’라 부른다. 2012년 가트너(Gartner)의 더글라스래이니 부사장이 포브스에 기고한 글에서 제시한 용어로, 최근 들어 다시 주목받기 시작한 개념이다. 인공지능이 ‘램프 요정 지니’처럼 모든 문제를 해결하진 않는다는 의식이 서서히 공유되면서, 일부에서는 이 다크 데이터 또한 ‘계륵’ 같은 존재로 여기기 때문이다. 비용상 효율이 떨어진다는 이유에서다.
 
이런 가운데 다크 데이터의 가능성을 재발견하는 사례는 계속해서 나오고 있다. 예를 들어 동물성 플랑크톤에 대한 1970~1980년대 데이터의 경우, 구조도 엉망이고 데이터 손실도 커 사실상 활용하기에는 적합지 않은 소재로 여겨졌다. 하지만 2015년 미국 우즈홀 해양학연구소 연구원들은 이 다크 데이터로부터 플랑크톤의 개체 수와 기후 변화 간 연관성을 발견해냈다. 오래된 데이터는 복원이 워낙 어렵다 보니 건드릴 엄두가 나지 않는다. 하지만 체계적으로 계획을 세워 접근하면 중요한 의미를 찾아낼 수 있다는 걸 보여준 대표적인 사례다. 딥러닝의 발달로 예상치 못하게 쓰임새가 재발견되는 데이터도 나타나고 있다.  
 

다크 데이터의 핵심, ‘구조화’를 해결하는 업체들

지난해 나온 한 클라우드 컴퓨팅 분석 보고서에 따르면, 기업들이 생각하는 IT 활동의 가장 힘든 부분으로 데이터에 대한 ‘너무 많은 수작업’이 꼽혔다고 한다(Flexera research). 실제로 저자가 들여다본 데이터들을 보면, 센서가 찍어내는 로그 데이터라 할지라도 생각보다 손이 꽤 간다. 공공데이터는 물론, 각종 경제 데이터나 금융 데이터마저도 매년 조금씩 다르게 표기되곤 한다. 이렇게 데이터 분석의 가장 큰 장애물로 꼽히는 ‘데이터 정제작업’에 대해서도, 기업의 부담을 낮추는 툴이 꾸준히 개발되고 있다. 애플의 경우 2017년, 다크 데이터를 구조화해 쓸모 있게 만드는 프로그램을 개발한 업체, 래티스 데이터(Lattice Data)를 인수한 바 있다.  
 
일부에서는 이것만으로도 부족하다는 이야기가 나온다. 이미 특정 레이블로 분류가 되어있다 하더라도, 몇 년 뒤면 또 새로운 방식으로 데이터가 레이블링 되어야 한다는 것이다. 개인적으로 최근의 기술개발 추세를 볼 때, 문제점이 나타나면 이를 해결하는 툴이 수년 내로 상용화되곤 했다. 강력한 기술을 탑재한 스타트업들의 인수작업을 토대로, 대형 클라우드 서버 업체들은 데이터를 보관하고 분석하는 일원화 시스템을 구축해 갈 것이다. 마이크로소프트(MS)와 같이 강력한 오피스 기능을 탑재한 클라우드 서버의 경우, 사용자가 직접 자연스럽게 작성한 문서부터 구조화된 데이터로 변환해 수집하는 식의, 사용자의 부담을 낮추는 클라우드 서비스를 지향할 가능성이 높다.
 

비싸다, 그래서 철저한 계획이 필요하다  

 하지만 소규모 업체들의 경우, 무작정 데이터 분석용 클라우드 서비스를 도입하는 것은 현실적으로 쉽지 않을 것이다. 더 체계적으로 데이터 계획을 정립할 필요가 있다. 자사에서 보유한 데이터의 샘플을 가져다가, 이것이 치우침 없이 활용 가치가 있는 데이터인지를 선제적으로 확인할 필요가 있다. 만일 사내에 데이터 사이언티스트가 있다면, 구글의 피플+AI 리서치팀에서 제공하는 왓-이프 툴(What-If Tool) 같은 데모를 활용해 데이터의 편향성을 미리 확인해볼 수도 있다. 정제되지 않은 데이터 가운데 랜덤으로 샘플을 뽑아 손을 본 뒤 그 가능성을 가늠해보는 것이다.  
 
산업 구조상, 강력한 데이터 분석기능을 갖춘 클라우드 서비스에 대한 의존도는 갈수록 높아질 것이다. 그래서 애초부터 데이터가 짐이 되지 않게 하기 위한 체계적인 원칙이 필요하다. 그 원칙을 정립할 팀을 구성해 컨트롤타워로 작동케 해야 한다. 데이터 활용도를 폭넓게 살필 줄 아는 데이터 사이언티스트, 근래의 딥러닝 기술 흐름을 잘 아는 개발자, 그리고 해당 분야의 인사이트가 충만한 전문가가 모여 어떤 목표를 가지고, 어느 데이터를 모아, 무엇을 분석할 것인지 틀을 잡아야 한다. 데이터를 때려 넣는다고 해서 해답이 ‘짠’하고 나오지는 않는다. 기업의 어젠다를 세팅하듯, 데이터에 대해 좀 더 진지하게 접근할 필요가 있다.
 
유재연 / 서울대학교 융합과학기술대학원 박사과정 (you.jae@snu.ac.kr)
 
중앙일보와 JTBC 기자로 일했고, 이후 서울대 융합과학기술대학원 박사과정을 밟고 있다. 이미지 빅데이터분석, 로봇저널리즘, 감성 컴퓨팅을 활용한 미디어 분석에 관심이 많다.

트랜D 더 보기