본문 바로가기

음성 데이터 쌓여 빅데이터화 통·번역기 성능 향상 밑거름

중앙선데이 2014.11.16 03:55 401호 6면 지면보기
구글은 2009년 보안업체‘리캡차’를 인수하며 고전서의 디지털화 작업에 이용하고 있다. [사진 구글]
얼마 전 ‘자동가입방지 문자의 비밀’이 화제가 됐었다. 인터넷 웹사이트에 가입 시 자동가입을 방지하기 위해 가입자가 직접 입력해야 하는 글자와 숫자에 대한 것이다.

스스로 발전하는 자동통·번역기

 알고 보니 의미와 목적이 있었다. 고서(古書)를 디지털 문서화하는 프로젝트의 일환으로 활용됐던 것이다. 이 작업은 고서를 이미지로 스캔하고 컴퓨터로 스캔된 이미지의 글자를 인식하는 과정을 거친다. 그런데 잉크가 바래고 종이가 변색된 부분의 글자는 컴퓨터가 제대로 인식하지 못했다. 그렇다고 일일이 사람이 확인할 순 없었다. 비용·시간 측면에서 불가능했다. 바로 인식이 안 되는 부분의 이미지를 자동가입 방지 문자로 사용한 것이다. 전 세계 2억 명의 인터넷 사용자의 도움을 받아 컴퓨터가 읽지 못한 글자를 입력하도록 한 것이다. 이렇게 하루 약 1억 개의 단어가 입력되고 1년에 250만 권의 책이 완성된다.

 대중의 잠재능력을 이용하는 ‘크라우드소싱(crowd sourcing)’의 일종이다. 자동통역의 정확도를 높이는 데 사용되는 데이터를 수집하는 과정도 이와 비슷하다. 우리가 입력하거나 말하는 데이터들이 우리가 의식하지 못한 채 빅데이터로 수집돼 사용된다.

 지식검색에 답변으로 달린 노래가사 번역 글이 좋은 예다. 자동통역 요소 중 하나인 자동번역에는 통계기반 방식이 활용된다. 의미가 같은 두 가지 언어의 말뭉치 데이터가 많을수록 번역의 정확도는 올라간다. 정확히 번역된 것일수록 유용한 자료가 된다. 그래서 질문자가 채택한 최종 답변을 위주로 번역에 활용한다.

 통역기 앱도 마찬가지다. 통역기에 사용자가 입력하는 음성 등의 데이터 역시 통역기 품질을 높이기 위한 자료로 쓰인다. 통역기의 이용약관을 보면 대부분 ‘입력되는 음성이 음성인식 개선 자료로 활용될 수 있다’는 내용의 문구가 포함돼 있다. 그래서 통역기는 어느 정도 데이터를 확보하면 출시된 뒤 데이터 수집용으로도 활용된다. 사용자에게는 통역기일 뿐이지만 제작자에게는 데이터를 모으기 위한 소중한 도구다.

 페이스북의 글도 이런 자료로 활용될 수 있다. 세계적인 스페인 테니스 선수 라파엘 나달은 페이스북 글에 영어와 스페인어를 같이 올리는 것으로 유명하다. 이런 자료 역시 자동통·번역의 좋은 자료다. 그래서 자동통역기는 어떻게 보면 사용자가 완성해 가는 도구인 셈이다. 만들어 놓으면 통역에 활용될 데이터가 스스로 자란다고 하는 것도 이 때문이다.


류장훈 기자

선데이 배너

공유하기
광고 닫기