본문 바로가기

본문

 
데이터 분석에서 가장 어렵고 힘든 일 중 하나가 바로 데이터 정제 작업이다. 데이터를 기계가 인식하기 좋게 잘 정리하는 동시에, 잘못 기록(중복 또는 오기)된 데이터를 고치거나 삭제해 제대로 된 수치만 남겨 정리하는 것도 여기에 포함된다. 이때, 이 눈엣가시 같은 수치를 ‘이상치(Anomaly, 통계 용어로는 Outlier)’라고 한다.

유재연의 ‘인사이드 트랜D’
쓰레기 데이터와 유의미한 데이터 구별 짓기

 
그런데 이상치 가운데는 정말 의미 있는 수치도 있다. 예를 들어 신용카드가 해외에서 복제돼 쓰이는 경우가 여기에 속한다. 분명 사용자의 최근 기록은 모두 한국인데, 몇 시간 만에 프랑스에서 카드가 긁혔다면 그것은 사기 거래 발생 가능성을 알려주는 지표가 된다. 주식에서도 마찬가지다. 갑작스러운 상승, 하락의 지표는 향후 주가 예측을 위해 결코 삭제돼선 안 될 중요한 요소 중 하나다. 하지만 이러한 ‘이상한 로그’의 발생을 실시간으로 아는 것도, ‘이상한 수치’의 중요도를 순간적으로 판단하는 것도 인간만의 힘으론 꽤 힘들다.
 

만물상자 ‘딥러닝’과 이상치의 만남

특히 제조업과 금융업에서의 이상치 발견은 아주 중요한 요소다. 최근에는 데이터의 패턴을 보고, 패턴의 특이도에 따라 군집을 묶는 방식의 딥러닝 기법이 주목받고 있다. 제조 장비의 로그 데이터를 딥러닝 모델에 넣어 돌려보면 변수에 따라 비슷한 패턴을 보이는 데이터끼리 묶이게 된다. 정상적인 데이터로부터 떨어져 나오는 군집으로부터 이상치를 발견하고, 그것의 빈도를 파악해 향후 장비의 고장 여부를 판단할 수 있다. 금융도 마찬가지다. 금융거래 사기나 보이스피싱과 같은 특이 행동을 파악하기에 본 방법은 아주 유용하다.
 
부정적인 상황을 골라내는 것뿐 아니라, 갑작스러운 상황에 대한 대처용으로도 이상치 데이터는 다채롭게 쓰일 수 있다. 인공지능 업계에서 눈여겨보는 주식 분석의 경우, 지금까지는 사회에서 발생하는 돌발 상황에 대한 실시간 주가 예측에 약한 모습을 보여왔다. 하지만 최근에는 비지도 학습(unsupervised learning) 기반 알고리즘이 높은 성능을 보이고, 여러 외부 데이터와의 결합 분석도 활발하게 진행돼 예측력 또한 점점 나아지는 모양새다. 이를테면 실시간 뉴스의 텍스트를 분석해 주가 분석에 활용한 연구가 있는데, 이 경우 예기치 못한 상황, 즉 ‘이상치’에 대한 분석 반영을 꽤 도울 수 있었다고 한다. 특이한 사건의 발생과 주가 등락을 짝지어 주식 예측 알고리즘의 성능을 향상하는 것이다.
 
산업 현장의 딥러닝 분석을 통한 대처도 참고할 만하다. 지난달 보스턴컨설팅그룹(BCG)의 패션업계 가격 인하 전략 리포트에 소개된 예시가 흥미롭다. 해당 업체는 2년간의 재고 관리 데이터와 일일 판매 기록을 토대로 적정 가격 인하율에 대한 예측 모델링을 진행했다고 한다. 이후 이 예측 모델에 가격 인하 시나리오를 실시간으로 입력하고, 이를 토대로 알고리즘 성능도 향상했다. 어떠한 돌발 상황이 발생해도, 유연하게 세일즈 전략을 추천받을 수 있도록 하는 시스템을 마련한 것이다.  
 

더존비즈온의 비지니스 플랫폼 '위하고'

비즈니스 활용을 위해선 일단 기록이 우선

위와 같은 고급화된 분석을 하기 위해서는 일단 딥러닝 도입 공식을 확실히 해 두는 것이 좋다. 위 사례에서 데이터 수집과 정제, 활용의 삼박자를 매우 모범적으로 제시하고 있어 간략히 소개하고자 한다. 프로세스는 다음과 같다.  
 
 1) 데이터 수집 및 정리: 변수를 상당히 구체적으로 정리한다. 가격과 수량 데이터, 재고 현황은 물론이고, 상품들의 속성(사이즈, 스타일, 색상, 매장 내 배치 등)까지도 세세하게 기록한다.  
 2) 분석 모델링: 그동안 재고에 대한 가격 변경 횟수나 할인 형태 같은 규칙들을 매개 변수화한다. 딥러닝에서보다 포괄적이고, 정확한 분석을 가능하게 한 요인이다.  
 3) 현장 전문가의 활용: 최종적인 의사결정에 사람의 직관을 적극적으로 활용한다. 세부적인 요율 조정과 같은 일은 현장 전문가의 몫이다.
 
코로나19로 예측이 너무나도 어려운 시대에 들어섰다. 다만 매일매일 발생하는 이 갑갑하고 서글픈 수치들은 그저 ‘이상한 수치’만은 아니다. 앞으로 언제든 마주할 수 있는 ‘익숙한 존재’가 될 수도 있다. 시장 상황 예측도, 고객 행동 예측도, 결국 모두 데이터가 있어야 제대로 할 수 있다. 한 치 앞도 내다보기 힘든 이 상황을 데이터로 잘 축적해두어야 한다. 기업혁신의 기회가 바로 지금이다.
 
유재연 / 서울대학교 융합과학기술대학원 박사과정 (you.jae@snu.ac.kr)
 중앙일보와 JTBC 기자로 일했고, 이후 서울대 융합과학기술대학원 박사과정을 밟고 있다. 이미지 빅데이터분석, 로봇저널리즘, 감성 컴퓨팅을 활용한 미디어 분석에 관심이 많다.
 
 

관련기사

공유하기
광고 닫기