본문 바로가기

‘빅데이터’ 분석, 사람 마음 읽고 사회 흐름 꿰뚫다

중앙선데이 2012.08.26 00:44 285호 8면 지면보기
다음소프트 송길영 부사장. 서울 한남동 신화빌딩 내 사무실. 사명 아래엔 ‘MINING MINDS’(마음 캐기)라는 글이 붙어 있다. 최정동 기자
사람의 기분은 시간의 흐름에 따라 변한다. 직장인들의 경우 월요일엔 끔찍하고 수요일엔 체념하고 금요일이 되면 웃음기가 돈다. 인터넷에서 동물이나 연예인을 주인공으로 하는 요일별 표정이 인기를 끄는 것은 많은 사람이 공감하기 때문이다. 그런데 요일별 기분을 수치로 나타낼 수 있을까.인터넷 데이터 분석업체 다음소프트 송길영(43·사진) 부사장은 직관적으로 느끼는 요일별 기분 상태를 계량화했다. 사람을 만나거나 물건을 팔 때 요일에 따라 합리적으로 행동할 수 있을 것이라 생각해서다. 그는 회사 동료와 함께 트위터상에서 지난해 5~10월 수집된 5억 건의 트윗(트위터의 개별 메시지)에 나타난 ‘기분’과 연관된 단어를 조사하는 방식으로 요일별 기분을 계량화했다. ‘좋다, 슬프다, 신난다, 우울하다’와 같은 단어들이 ‘좋다’처럼 긍정적인 단어와 연관된 비율을 조사하고 이를 요일별로 분석해 특정 요일의 ‘긍정 비율’을 분석했다. 결과는 상식을 벗어나지 않았다. 요일별 긍정 비율은 월요일에 68.5%로 최저이지만 주중에 서서히 상승해 금요일 72.3%로 정점에 이르렀다. 그는 지난 6월 정보사회학회 세미나에서 이런 결과를 ‘일상의 관찰-기분’이라는 제목으로 발표했다.

파워 차세대 ②디지털 예측가 송길영 다음소프트 부사장

올여름, 작년보다 1.6배 더웠다는 근거는…
중앙SUNDAY의 연중기획 ‘파워 차세대’가 두 번째로 만난 송 부사장은 인간의 언어를 컴퓨터로 어떻게 포착하고 이해하느냐에 관심이 많다. 디지털 데이터 분석을 통해 사회 흐름을 예측하고 분석한다. 인터넷 언어 분석을 통해 사회 흐름을 포착하는 분야의 개척자란 평가를 받는다. 서울대 조성준(산업공학) 교수는 “문과·이과의 벽이 높은 우리 사회에서 양쪽을 연결하는 다리 같은 역할을 한다”고 평했다.

겉으로 드러난 이력만 볼 때 그는 뼛속 깊이 이공계 출신이다. 고려대에서 전산학을 전공하고 박사 과정을 수료했다. 2000년 다음소프트에 전략기획 담당 임원으로 합류하기 전에는 무역협회 산하 한국무역정보통신에서 데이터 분석 등을 담당하는 연구원으로 일했다. 서울에서 태어나고 자란 그는 교사 어머니와 공무원 아버지 아래서 어릴 적부터 책 읽기를 좋아했다. 전산학을 공부하려고 결심한 건 컴퓨터가 사회 변화의 중추라는 생각에서였다. 대학에선 4년 내내 장학금을 받은 모범생이었다. 하지만 적어도 외모에선 ‘꼼꼼한 전산 기술자’가 아니다. 긴 머리를 곱게 빗어 동여맨 꽁지머리에다 옷은 늘 잘 차려입고 다닌다. 여성 직원들과도 이야기를 잘하는 성격이어서 별명이 ‘언니’란다.

그를 만나기 위해 찾아간 서울 한남동 신화빌딩 사무실 입구 벽엔 ‘Mining Minds’(마이닝 마인즈-마음 캐기)라는 문구가 붙어 있었다. 사무실 유리 벽면에는 컴퓨터나 데이터 관련 용어보다 프로야구·뷰티 같은 단어들이 더 많이 눈에 띄었다. 사무실 책꽂이엔 정보기술(IT) 서적보다 『로마인 이야기』 같은 인문ㆍ사회과학 서적이 훨씬 더 많았다. ‘마이닝 마인즈’라는 문구를 층마다 붙여 놓은 이유를 묻자 “데이터 분석이란 궁극적으로 사람 마음을 읽고 사회 흐름을 파악하는 것이 중요하기 때문”이라고 그는 강조했다.

다음소프트는 소셜네트워크서비스(SNS)에 나타난 언어 분석을 통해 브랜드나 인물의 이미지, 사회 흐름 등을 파악한다. 사진은 ‘강남스타일’로 인기를 끌고 있는 가수 싸이를 중심어로 트위터·블로그상의 연관어 출현 빈도 및 관련 정보를 표시한 것. 7월 25일~8월 24일 가수 싸이가 포함된 트위터·블로그 20여만건을 분석 대상으로 했다.
예전에도 사회 흐름에 대한 분석은 있었지만 특정 분야 전문가의 분석에 의존하는 일이 많아 일반 소비자의 감성과 동떨어지거나 정량적 근거를 제시하기 힘든 경우가 많았다. 하지만 인터넷에 있는 수천만, 수억 개의 언어를 컴퓨터 기술에 기반한 이른바 ‘텍스트 마이닝’ 기법을 활용하면 더욱 객관화하는 것이 가능하다고 말했다. “무척이나 더웠다는 올여름이 지난해 여름보다 얼마나 더 덥다고 사람들이 느낄까를 수치로 나타낼 수 있느냐”는 물음에 그는 “1.6배 정도”라고 답했다. 인터넷 블로그에 ‘덥다’라는 단어가 언급된 횟수가 지난해 7월엔 9만9200건, 올해 7월은 16만600건이기 때문이란다.

그가 하는 일은 이른바 빅 데이터(Big Data) 분석이다. 경제ㆍ사회 현안들을 해결하는 실마리가 될 수 있어 새롭게 각광받는 분야다. 인터넷 검색기록이나 검색패턴·위치확인시스템 기능이 있는 스마트폰으로 이동 경로나 행선지를 분석할 수 있고, 신용카드 사용내역을 조사해 개인별 소비패턴 분석까지 가능하다. 인터넷과 스마트기기 보급이 늘면서 개인의 활동부터 사회 전체에 이르기까지 광범위한 데이터 수집이 가능해졌고, 컴퓨터 연산능력과 데이터 분석방법론 발전과 맞물려 급성장하는 추세다. 구글·아마존·페이스북·IBM 같은 IT 업체들이 경쟁적으로 진입하고 있다. 지난 1월에 열린 세계경제포럼(다보스포럼)은 빅 데이터 기술에 대해 ‘새로운 가능성을 여는 중요한 기술’로 지목했다. 미국 정부는 백악관 과학기술정책실(OSTP)이 주도하고 정부 부처가 함께 참여하는 연구개발 투자계획을 발표했다.

다음소프트는 빅 데이터 분석 가운데서도 트위터 같은 소셜네트워크서비스(SNS)상에 나타난 언어 분석을 위주로 한다. 송 부사장은 인터넷상의 언어 자료 수집·분석을 위한 언어 이해 엔진을 개발하는 데 주도적인 역할을 했다. “특정 단어가 포함된 내용을 뽑아내는 것에서 더 나아가 문맥 속에서 언어를 이해할 수 있도록 하는 기술”이란 설명이다. 그래서 송 부사장은 컴퓨터와 언어를 결합한 분야를 주로 공부했다. 박사 학위 논문도 ‘인터넷 언어 처리를 기반으로 집단지성을 이해하고 활용하는 기술’에 관한 내용을 준비 중이다. 업무 특성상 인문학·사회과학 소양이 필요한 만큼 전문가그룹과 2006년부터 ‘오피니언 마이닝 워크숍’이란 공부 모임을 하고 있다. 그가 일하는 다음소프트는 이 분야에서 선도업체로 평가받는데 송 부사장은 그 안에서 전문가로 꼽힌다. 송 부사장은 2008년 한국국제교류재단이 주최한 ‘한·유럽 차세대 지도자 프로그램’에 다른 젊은 인재들과 함께 한국 대표로 참가했고, 올해는 마이크로소프트(MS)의 스티브 발머 최고경영자(CEO) 등이 강연자로 나선 ‘서울디지털포럼’의 연사로 초청됐다.

“키워드 변화 추이로 볼 때 ‘집’이 뜰 것”
다음소프트는 삼성전자·현대자동차·SK텔레콤 같은 대기업과 서울시·보건복지부 같은 공공기관이 주요 고객이다. 새누리당도 4·11 총선 때 SNS 분석을 의뢰했다. 그 덕에 2000년 설립 당시 5억원이던 매출은 올해 120억원으로 늘어날 전망이다. 직원 숫자는 100여 명이지만 그중 70%가 엔지니어나 언어 관련 전문가다. “어려움 모르고 승승장구하며 살아왔을 것 같다”는 질문에 그는 “취미가 일이 돼 비교적 행복한 편이지만 직업적인 고민이 없진 않았다”고 했다. 2000년 회사 설립 후 5~6년간 기업의 주문을 받아 인터넷상의 고객 반응을 분석ㆍ제공하는 일을 주로 했다. “그때는 누군가의 수단으로 전락한 듯한 느낌이 들었죠. 그래서 좀 더 보람 있는 일을 해 보자는 뜻에서 동료와 함께 그동안 축적한 데이터를 바탕으로 관련 분야 전문가에게 자문해 사회 흐름을 분석ㆍ제공하는 쪽으로 영역을 넓히는 데 힘썼다”고 했다.

송 부사장이 일하는 다음소프트는 막대한 양의 데이터를 확보해 나가고 있다. 2000년대 중반부터 데이터를 모아 40억 개가 넘는 트윗을 비롯해 수많은 데이터를 100대 이상의 대용량 서버에 보관 중이다. SNS와 인터넷상에 공개된 데이터를 분석해 영화 ‘마이너리티 리포트’ 같은 수준은 아니지만 어느 정도 미래 예측을 할 수 있다는 것이다. 그는 “개개인은 무심코 내뱉은 말이겠지만 이를 대량으로 수집하면 전체 모습이 드러난다. 일반인들이 스스로 생산해 인터넷에 쌓인 자료인 만큼 생생하고 거침없으며 변화를 추적하기에 유용하다”고 말한다. 빅 데이터 분석은 마케팅을 비롯한 기업경영·정치·문화 각 분야의 흐름 분석에 두루 쓰일 수 있다. 다음소프트는 지난해 10·26 서울시장 보궐선거 당시 SNS 메시지 분석을 통해 기존 정당정치가 바닥부터 흔들리고 있으며 박원순 후보가 우세하다는 사실을 예측한 바 있다. 특정 기간의 트윗에서 박원순·나경원 후보와 관련한 키워드를 분석하거나 여야 정당의 거론 횟수, 팔로어 숫자, 리트윗 횟수 등을 분석한 결과였다.

사회 변화 예측도 마찬가지다. 예컨대 패션ㆍ음식ㆍ집ㆍ여가활동ㆍ기술 등을 키워드로 해 관련 단어의 언급량과 변화 추이를 살펴보는 것이다. 그는 “앞으로는 ‘집’이 뜰 것”이라고 했다. 블로그나 트위터에서 ‘나만의 공간’ ‘홈파티’ 같은 집과 관련된 단어에 대한 언급이 많아지고 있어서란다. 인터넷상의 언어 분석을 통한 사회 흐름 예측이 ‘획기적인 작업’으로 평가되지만 보완해야 할 부분이 적지 않다고 전문가들은 지적한다. 서울대 김난도(소비자학) 교수는 “인터넷과 모바일기기 사용은 아직 젊은 층이 중심인 만큼 ‘전체’를 대변한다고 보기 어려운 측면이 있다. 분석의 한계를 인식하고 ‘전체’와의 격차를 줄이는 데 힘써야 할 것”이라고 말했다. 통찰력도 여전히 남는 숙제다. 서강대 정재학(경영학) 교수는 “인문학적·사회과학적 통찰력이 부족한 데이터 분석은 왜곡된 결과를 낳을 수도 있다. 상대적으로 검증도 약하다. 보다 검증된 의견을 반영할 수 있는 메커니즘을 갖추는 것이 필요하다”고 지적했다.

선데이 배너

공유하기

중앙일보 뉴스레터를 신청하세요!