본문 바로가기

[세상 바꾸는 체인지 메이커] 데이터 과학자들의 ‘링’ 마련 … 최적 해법 찾는 길 창조

중앙선데이 2014.04.20 02:46 371호 24면 지면보기
올 1월 스위스 다보스의 세계경제포럼 연차총회에서 ‘끝없는 혁신(Innovation Unlimited)’을 주제로 한 분과회의에 참석한 캐글의 창업자 앤서니 골드블룸이 연설하고 있다. [사진 세계경제포럼]
미국의 대표적 취업정보 사이트 커리어캐스트닷컴(careercast.com)은 매년 200개 주요 직업의 순위를 발표한다. 연봉은 물론 향후 전망, 업무환경, 스트레스 정도까지를 두루 고려한 것이다. 지난 15일 발표한 ‘올해 최고의 미국 직업’은 뜻밖에도 수학자였다. 3위는 통계학자, 4위 보험계리사, 7위 소프트웨어 엔지니어, 8위 컴퓨터 시스템 분석가. 이들의 공통점은 데이터를 다루는 직업이라는 것이다.

<31>캐글 창업자 앤서니 골드블룸

인터넷을 비롯한 정보통신기술(ICT) 발달로 인류는 매 순간 어마어마한 데이터 홍수에 직면하게 됐다. 종래의 방법으로는 수집·저장·가공·분석이 어려운 방대한 규모다. 이를 흔히 빅데이터(big data)라 부른다. 빅데이터를 제대로 분석하면 최적의 개인 맞춤 광고나 비행항로 설계, 점포 위치 선정, 항암제 개발 같은 것들이 가능하다. 미국의 시장조사기업 가트너가 이를 ‘미래 경쟁력을 좌우할 21세기 원유’라 일컬은 까닭이다.

문제는 이런 빅데이터 분석을 통해 뛰어난 예측 모델을 도출할 수 있는 전문가가 흔치 않다는 것이다. 계산 자체는 컴퓨터가 하지만 알고리즘을 짜는 건 인간 몫이다. 이런 일을 하는 사람을 데이터 과학자(data scientist)라 한다. 요즘 글로벌 기업들은 업종을 막론하고, 실력 있는 데이터 과학자를 모시고자 혈안이 돼 있다. 커리어캐스트닷컴은 덕분에 향후 8년간 수학 분야의 취업시장 성장률이 23%에 이를 것이라고 내다봤다.

그런데 이런 변화를 몇 년 앞서 예측해 기업과 데이터 과학자를 연결하는 ‘다리’를 만듦으로써 빅데이터 시대의 가장 주목할 만한 혁신가 중 한 명으로 떠오른 사람이 있다. ‘캐글(Kaggle)’ 창업자 앤서니 골드블룸(Anthony Goldbloom·30·사진)이다.

캐글(Kaggle)의 홈페이지.
캐글은 쉽게 말해 전 세계 데이터 과학자들이 특정 문제의 해결법을 놓고 경쟁을 벌이는 온라인 플랫폼이다. 문제를 내는 쪽은 빅데이터를 보유하고 있으나 이를 분석할 전문가는 부족한 기업 또는 기관이다. 최근 사례를 보자. 미국 제너럴일렉트릭(GE)은 국제선 항공기의 도착 시간을 보다 정확히 예측할 수 있는 방법을 찾고자 했다. 이를 위해 GE는 거액의 상금과 더불어 날씨, 비행기 위치, 비행 시간, 연료 소비량 등을 담은 방대한 양의 데이터를 캐글 측에 제공했다. 캐글은 이를 온라인에 공개했고, 이를 본 세계 각지의 데이터 과학자들이 각자 혹은 팀을 이뤄 문제 해결에 나섰다. 지난해 말 우선 1단계 우승자들이 정해졌다. 이들이 개발한 알고리즘을 적용하면 현행보다 비행기 도착 시간을 49% 더 정확하게 예측할 수 있다고 한다. 우승자들은 25만 달러의 상금과 ‘선수 중의 선수’라는 명예, 세계 유수 기업의 스카우트 대상이 되는 기쁨을 누렸다.

캐글은 이렇게 ‘시합(competition)’이라는 모델을 통해 집단 지성을 이끌어낸다. 미국 경제주간지 비즈니스위크가 캐글에 ‘기크(geek·특정 분야에 강한 지적 열정을 가진 사람)들의 UFC(종합격투기대회)’라는 별명을 붙인 이유다. 한편으로 인터넷과 소셜네트워크를 통해 대중에게 문제 해결을 맡긴다는 점에서 전형적인 크라우드 소싱(crowd sourcing) 방식이다. 현재 캐글에서는 100개국 이상, 10만여 명의 전문가가 활동 중이다. 세계 최대 데이터 과학자 커뮤니티인 셈이다.

캐글은 미국 샌프란시스코에 있지만 골드블룸은 호주인이다. 멜버른대에서 경제학과 계량경제학을 전공했고 우등으로 졸업했다. 고교 시절에는 국가대표 요트 선수였다. 대학 졸업 뒤 호주 재무부의 미시경제 모델링 부서에서 잠시 근무하다 2008년 영국 런던으로 건너갔다. 3개월간 경제전문지 이코노미스트의 인턴으로 일했다. 이때 빅데이터에 대한 취재를 하면서 조만간 이 분야 전문가에 대한 수요가 폭발적으로 증가할 것임을 깨달았다.

이듬해 귀국해 호주 지불준비은행에서 일했지만 마음은 이미 창업에 쏠려 있었다. 결국 은행을 그만둔 그는 2010년 멜버른에서 캐글을 창업한다. 2011년에는 샌프란시스코로 이주를 감행했다. 캐글의 가능성을 눈여겨본 실리콘밸리 거물들이 속속 투자자로 합류했다. 이어 미 항공우주국(NASA), 마이크로소프트, 페이스북, 포드, 마스터카드, 화이자제약 등과 잇따라 계약을 맺었다. 캐글은 이들이 가진 각종 빅데이터 이슈 해결을 돕는 대신 매월, 혹은 건당 수만 달러의 수수료를 받는다. 수익 모델도 탄탄한 셈이다.

그간 캐글이 진행한 경진대회 중 가장 상금액이 큰 것은 미국 의료단체 ‘헤리티지 프로바이더 네트워크’가 제안한 건이었다. 과거 보험 청구서만 가지고 어떤 환자가 1년 이내에 병원을 다시 찾을지를 정확히 예측하는 미션이었다. 300만 달러에 이르는 상금을 획득하기 위해 1400명 이상의 전문가가 달려들었다. 보험회사인 올스테이트는 캐글을 통해 어떤 특성의 자동차가 육체적 손상을 일으키는 사고에 자주 연루되는지를 알았고, 비영리기관인 휴렛 재단은 학생의 에세이 점수를 교사가 직접 하는 것 이상으로 정확하게 매길 수 있는 알고리즘을 개발했다.

그렇다면 어떤 사람들이 캐글 최고의 데이터 과학자일까. 이 회사의 ‘수석 과학자’인 제러미 하워드는 한 인터뷰에서 “의외로 미국이 아닌 동유럽·아시아 사람이 많다. 통계학자보다는 물리학·전기공학·천문학 등 타 분야 전문가로서 독학으로 데이터 과학에 입문한 이들이 대부분”이라고 말했다. 이들은 수퍼컴퓨터가 아닌 노트북으로, 퇴근 뒤 집 거실에 앉아 경쟁에 참여한다. 하워드는 “우승의 관건은 데이터 처리력이 아니라 전적으로 창조성 유무”라고 강조했다. 한 문제에 대해 대여섯 개씩의 상이한 사고 과정과 해결책을 제시할 수 있는 사람만이 우승자가 될 수 있다는 것이다. 탁월한 데이터 분석가란 결국 자기만의 독창적 기법으로 무의미해 보이는 숫자들로부터 어떤 ‘통찰’을 추출해내는 사람인 셈이다.

골드블룸은 지난해 ‘스마트 데이터 콜렉티브’와의 인터뷰에서 이런 말을 했다. “아침에 눈 뜰 때마다 더 많은 사람이 데이터 과학을 이용하게 만들겠다는 생각을 한다. 딱딱한(제대로 분석되지 않은) 데이터 혹은 그저 감(感)에 의존해 이뤄지는 수많은 결정을 민주화하는 것이 목표다.” 지위나 지식의 고하와 상관 없이 누구나 쉽고 정확한 결정을 내릴 수 있는 시스템을 구축하겠다는 것이다.

과연 세상만사를 데이터로 해석하고 또 해결할 수 있을지는 알 수 없으나 결정적 순간마다 과학적 분석보다는 높은 분들의 “내가 해봐서 아는데…”가 더 큰 힘을 발휘하는 우리나라야말로 이런 ‘결정의 민주화’가 절실한 상황이 아닌가도 싶다.

선데이 배너

공유하기
광고 닫기