본문 바로가기

"나 취했어" "집에 못 데려다줘요" … 농담 받아주는 자동차

중앙일보 2014.05.13 01:52 종합 16면 지면보기
“이봐 할, 내 말 들려? 문 열어.”


궁금한 화요일 - 스마트폰 음성인식의 진화
애플, 차량용 아이폰 솔루션 선봬
운전 중 길 안내, 전화통화도 척척

 “미안합니다, 데이브. 그럴 순 없어요. 당신과 프랭크가 날 죽이려고 한다는 걸 알고 있어요.”



▷여기를 누르시면 크게 보실 수 있습니다


 세계적 명장 스탠리 큐브릭 감독이 1968년 만든 공상과학(SF) 영화 ‘2001 스페이스 오디세이’에 나오는 대사 중 일부다. 목소리의 주인공은 목성을 향해 떠나는 오디세이호의 선장 데이비드 보우만과 인공지능 컴퓨터 ‘할(HAL-9000)’이다. 할은 마치 신호등의 빨간불 또는 외눈박이 도깨비 같은 모습으로 선장 보우만과 체스를 즐기고, 대화를 나누며 우주선을 통제한다. 하지만 도중에 오류를 일으켜 혼란에 빠지고, 이 때문에 작동을 멈추려 하는 인간을 공격한다.



 스페이스 오디세이가 개봉한 지 반세기 가까이 지난 지금 ‘말하는 컴퓨터’는 더 이상 영화 속의 상상도, 연구실만의 이야기도 아니다. 스마트폰 등 모바일 기기에 인공지능 기반 음성인식 기능이 들어오면서 본격적인 ‘내 손 안의 비서’ 시대가 열리고 있는 것이다. 미국 애플사가 2011년 아이폰용 지능형 음성인식 서비스 ‘시리’를 시범 서비스한 이후, 세계 선두권 정보통신(IT) 기업들은 앞다퉈 음성인식과 인공지능 연구에 몰두하고 있다. 중국 같은 후발주자가 맹추격해올 만큼 스마트 기기의 하드웨어 경쟁이 한계에 달한 것도 자극이 됐다.



 특히 올 들어 스마트시계 등 웨어러블(입는) 기기와 사물인터넷(IoT:Internet of Things) 시장이 본격화하면서 ‘음성인식과 인공지능’은 핵심 기능으로 떠오르고 있다. 데스크톱과 노트북은 입력장치로 키보드를 쓰면 되지만, 웨어러블 컴퓨터나 사물인터넷은 ‘음성’으로 지시하는 것이 훨씬 편리하기 때문이다. 이 때문에 스마트폰은 물론 최근 출시되는 스마트시계, 구글글래스 등은 대부분 인공지능에 기반한 음성인식 기능을 달고 있다. 시장조사업체 BCC리서치에 따르면, 전 세계 음성인식 기술 시장 규모는 2011년 이미 470억 달러(약 48조2200억원)에 달했으며, 앞으로도 연평균 16.2%씩 성장해 2017년에는 1130억 달러까지 이를 전망이다.



 애플은 지난해 9월 새로운 모바일 운영체제 iOS7을 내놓으면서 시리에 붙어 있던 ‘베타(시범 서비스)’ 꼬리를 뗐다. 이제는 제대로 된 기술을 갖추고 정식 서비스를 할 수 있다는 자신감의 표현이다. 올 3월에 출시한 차량용 아이폰 솔루션 ‘카플레이’는 시리를 활용한 음성인식이 대표적 기능이다. 운전 중에 음성으로 지시를 하면 차가 주인의 말을 알아듣고 전화를 걸고, 지도도 보여준다. 심심한 마음에 농담을 하면 적당한 대답도 건넨다. 예를 들어 “나 취했어”라고 말하면 “제가 당신을 집에 데려다 드릴 거라고 기대하지는 마세요”라고 답한다.



 구글의 음성인식 기능은 2012년 구글글래스를 공개하면서 만든 동영상 광고(CF)로 큰 관심을 끌었다. 광고에서 주인공은 음성만으로 친구에게 문자를 보내고, 공연티켓을 사고, 지도를 검색하며, 사진을 찍고, 음악 플레이어를 끈다. 스마트폰 앱으로 나온 구글 번역기는 80개가 넘는 언어를 음성으로 통역해준다. 안드로이폰에서 만날 수 있는 인공지능 비서 ‘구글나우’는 위치정보와 사용자 개인정보 등을 이용해 사용자가 묻기도 전에 필요한 정보를 제공해준다는 점에서 시리를 넘어선다. 출근길에 나서면 “오늘은 비가 와서 길이 막히니 승용차보다 지하철을 이용하는 편이 좋다”고 조언하는 식이다.



 모바일 분야에서 한 발 뒤진 미국 마이크로소프트(MS)도 이젠 잰걸음이다. 지난달 초 MS는 샌프란시스코에서 열린 개발자회의에서 스마트폰 OS인 ‘윈도 폰 8.1’의 업데이트 계획을 발표하면서 윈도 음성인식 비서 ‘코타나’를 내놓기로 했다고 밝혔다. 시리와 구글나우·코타나의 공통점은 사용자가 사용할수록 더 똑똑해진다는 점이다. 음성인식 비서 서비스가 사용자의 개인정보와 각종 이용 데이터를 저장하고 이를 바탕으로 스스로 학습하기 때문에 가능한 일이다.



 문제는 인식률이다. 현재도 영어의 경우 인식률이 높은 편이지만, 한국어를 포함한 다른 언어들은 아직 갈 길이 멀다. 음성인식 기능을 한두 번 써보고 실망해 이후론 아예 사용하지 않는 사람이 적지 않다. 이 때문에 구글은 2012년 말 세계적 발명가이자 인공지능 분야의 대가인 레이 커즈와일을 영입해 음성인식 기능의 진화 속도를 높이고 있다. 커즈와일은 “5~8년 안에 구글 검색엔진이 혁신적으로 바뀔 것이며, 2029년이면 사람처럼 길고 복잡한 질문까지도 이해하고 답할 수 있게 될 것”이라고 말했다.



 그렇다면 삼성전자·LG전자와 같은 한국 기업은 어떨까. 양 사 모두 구글의 안드로이드 체제를 사용하고 있어 음성인식 기능을 따로 개발할 필요가 없어 보이지만, 실상은 두 기업 모두 독자 음성인식 기능 개발에 열을 올리고 있다. 구글의 음성인식 기능이 한국어 서비스와 자연스럽게 호환되는 데 한계가 있는 데다, TV와 냉장고 등 가전기기를 사물인터넷으로 연결하려는 복안을 갖고 있기 때문에 글로벌 경쟁에서 우위를 점하기 위해서는 독자적인 음성인식 기능 개발이 필수적이다. 다만 국내 기업의 음성인식 서비스는 구글·애플과는 달리 사용자의 개인정보를 수집하지 않고, 또 이를 바탕으로 스스로 학습하는 기능이 없기 때문에 현재로서는 ‘손 안의 비서’가 되기엔 한계가 있다.



 LG전자는 2012년 국내 최초로 음성인식 기능 ‘Q보이스’를 탑재한 스마트폰 옵티머스 LTE2를 내놨다. 음성으로 전화를 거는 것은 물론, 문자전송·사진촬영·음악재생·알람설정·날짜확인 등 총 20가지 분야에서 작업을 수행할 수 있다. 예를 들어 문자전송의 경우 “○○한테 내일 3시에 보자고 문자 보내줄래”라는 명령을 내리면 그대로 수행해 준다. 인터넷을 통해 원하는 정보를 찾거나, 끝말잇기 등 심심풀이용으로 Q보이스와 대화를 나누는 것 등도 가능하다. LG전자 MC사업부의 곽재도 부장은 “현재 음성인식률이 80% 정도에 이른다”며 “아직은 재미 수준으로 음성인식 기능을 사용하는 사람이 많지만 머잖아 진짜 손 안의 비서 역할을 할 때가 올 것”이라고 말했다. 앞으로 5년 안에 스마트폰에서 고객이 원하는 기능을 음성으로 모두 처리할 수 있는 수준으로 발전시키겠다는 게 LG의 목표다. 삼성도 2012년 갤럭스S3에 처음 실은 음성인식 서비스 ‘S보이스’를 계속 진화시키고 있다. 음성명령만으로 전화·문자는 물론 카메라 작동 등 다양한 작업을 할 수 있다. 지난해 4월 출시된 갤럭시S4부터는 번역 기능도 새로 추가됐다.



 정보기술(IT) 업계의 한 관계자는 “하드웨어 경쟁이 한계에 도달한 지금은 소프트웨어 생태계 구축에 힘을 쏟아야 할 것”이라고 말했다.



최준호 기자
공유하기
광고 닫기