본문 바로가기

[비즈니스 현장에 묻다] 트렌드 무시, 한우물 파다보니 어느새 대세 됐다

중앙일보 2021.03.05 00:35 종합 26면 지면보기
이교구 서울대 교수는 지난해 AI를 활용한 음성합성기술을 앞세운 스타트업을 창업했다. 쉬운 말로 노래하는 AI를 만든 것이다. 엔터업계 러브콜이 쏟아졌는데, 최근 빅히트가 40억원을 투자했다.우상조 기자

이교구 서울대 교수는 지난해 AI를 활용한 음성합성기술을 앞세운 스타트업을 창업했다. 쉬운 말로 노래하는 AI를 만든 것이다. 엔터업계 러브콜이 쏟아졌는데, 최근 빅히트가 40억원을 투자했다.우상조 기자

세계 최고 음성합성기술 보유한 수퍼톤 이교구 대표

하츠네 미쿠. 이 이름을 안다면 당신은 대략 두 범주 사람일 가능성이 크다. 캐릭터 오타쿠거나 음성 AI(인공지능) 업계 종사자. 2007년 데뷔한 하츠네 미쿠는 도쿄돔 공연(2012년)을 4회 연속 매진시키는 등 연 3000억원 매출을 올리는 대형가수다. 도요타가 TV 광고 모델(2012년)로 세우고, 루이뷔통이 의상을 맡고(2013년), 레이디 가가는 북미 투어(2014년)에 오프닝 게스트로 초청할 정도로 글로벌한 지명도까지 갖췄다. 전성기 시절 소녀시대급 인기인데, 진짜 사람은 아니다.
1997년 등장한 사이버가수 아담. 실제 인간 목소리에 캐릭터만 입힌 반쪽 사이버 가수였다. [JTBC]

1997년 등장한 사이버가수 아담. 실제 인간 목소리에 캐릭터만 입힌 반쪽 사이버 가수였다. [JTBC]

한국에서 1997년 데뷔했던 사이버 가수 아담은 실제 사람 목소리에 캐릭터만 입혔다. 하지만 하츠네 미쿠는 야마하의 음성합성 소프트웨어인 보컬로이드를 이용해 만든 목소리로 노래를 부르는 것이라 진정한 버추얼 가수의 탄생이라 할만하다. 거꾸로 말하면 보컬로이드가 없었다면 일본 크립톤퓨처미디어가 만든 하츠네 미쿠는 태어날 수 없었고, 막대한 부가가치 창출도 기대하기 어려웠을 거다. 보컬로이드의 음성합성 AI 기술이 막대한 수익을 올리는 새로운 엔터테인먼트 시장을 만들어 냈다는 얘기다.

죽은 김광석도 살려내는 AI 노래
현실·가상 접목한 세계 최고 기술
BTS 속한 빅히트가 40억 투자
K팝 넘어서는 새 시장 핵심될 것


실제로 일본뿐 아니라 세계 최고 인기의 e스포츠 롤(리그오브레전드) 제작사인 미국 라이엇게임즈는 2018년 11월 하츠네 미쿠처럼 실존인간 없이 AI가 노래하는 K/DA(‘케이디에이’로 읽는다)라는 버추얼 아이돌그룹(한국 멤버 2명 포함)으로 큰 성공을 거뒀다. 데뷔하자마자 미국 아이튠스 팝 부문 4위(K팝 부문 1위)에 올랐고, 뮤직비디오는 조회 수 4억을 넘겼다. 한국 엔터 업계가 기계처럼 완벽한 기획사 연습생 출신 아티스트들이 이끄는 K팝의 성공에 도취해있을 때 일본과 미국은 아예 새 시장을 만들고 있었다. 그리고 이제 한국 엔터·게임업계도 이 시장에 본격적으로 뛰어들 채비를 하고 있다.
이 지점에서 관심을 받는 기업이 음성 AI를 연구해온 서울대 이교구(48·지능정보융합학과) 교수가 지난해 설립한 음성합성기술 스타트업 수퍼톤이다. 최근 BTS가 소속된 빅히트로부터 40억원의 전략적 투자를 받긴 했지만 경기창조경제혁신센터가 운영하는 ‘판교 창업 존’(판교 제2테크노밸리 기업지원허브) 8층의 비좁은 사무실 한 칸에 대표 포함 직원 7명이 옹기종기 모여 일하는 작디작은 회사다. 그런데도 주목하는 이유는 세계 최고의 음성합성기술을 보유하고 있기 때문이다. 기술로만 보면 이미 오래전 시장에 뛰어든 야마하(보컬로이드)나 막대한 자본·기술력을 가진 라이엇게임즈(※K/DA 음성 AI는 이 회사 자체 기술로 알려져 있다)보다 앞서 있다. 지난해 Mnet ‘다시 한번’, 그리고 올해 SBS 신년기획 ‘AI vs 인간’을 통해 고(故) 김현식과 김광석을 소환하고, 옥주현보다 더 옥주현 같은 목소리로 사람들을 놀라게 한 데는 이런 기술력이 있다. 판교 사무실에서 이교구 대표를 만나 그가 그리는 미래를 물었다.

SBS가 신간기획으로 방송한 '세기의 대결! 인간 vs AI' 장면. 1996년 사망한 김광석이 2002년 노래를 부를 수 있었던 데는 수퍼톤 기술이 있었다.

SBS가 신간기획으로 방송한 '세기의 대결! 인간 vs AI' 장면. 1996년 사망한 김광석이 2002년 노래를 부를 수 있었던 데는 수퍼톤 기술이 있었다.

교수 부임 10년 만에 창업했는데.
“이공계 출신들은 과학기술이 사회에 도움이 된다는 믿음이 강하다. 인재 양성하고 학술적으로 인정받는 것도 큰 의미가 있지만 기술을 좋은 쪽에 널리 쓴다는 것도 의미 있게 다가왔다. 2~3년 전부터 서울대가 창업을 독려하는 분위기이기도 하고, 학생들 사이에서도 무조건 대기업·공기업만 찾는 게 아니라 작은 스타트업에서 리스크를 감수하려는 움직임이 있던 것도 마음을 움직였다. 마침 진행 중인 연구 가운데 2개 아이템이 사업 경쟁력이 있다는 판단이 들어서 같이 할 사람을 찾기 시작했다.”
 
쉽게 찾았나.
“그런 셈이다. 우리 연구실 출신으로 삼성전자 다니던 허훈 기술이사(CTO)를 제일 먼저 영입했고, 비슷한 시기 카카오에서 엔터 신사업 개발총괄로 새 프로젝트에 막 들어갈 참이던 최희두 운영이사(COO)를 모셔왔다.”
 
※음악 관련 2번의 창업을 비롯 KT·멜론·카카오 거친 최 이사는 “이 대표가 제안하자마자 마음속으로 바로 회사 때려치울 준비를 했다. 카카오에서 기술적 한계로 접어뒀던 영역인데 차원이 다른 기술을 보여주니까 연봉과 직업적 안정성을 버리고 합류했다”고 했다.
덕업일치를 하고 있는 수퍼톤 직원들. 이교구 수퍼톤 대표와 허훈 CTO, 최희두 COO, 그리고 이진우(왼쪽부터). 우상조 기자

덕업일치를 하고 있는 수퍼톤 직원들. 이교구 수퍼톤 대표와 허훈 CTO, 최희두 COO, 그리고 이진우(왼쪽부터). 우상조 기자

대학 연구실 수준이 그 정도로 높은가.
“2019년 NHK 홍백가합전에선 30년 전 사망한 일본 국민가수 미소라 히바리를 보컬로이드를 통해 불러냈다. 시기는 뒤졌지만 퀄리티는 우리가 앞선다. 하츠네 미쿠를 만들고 미소라 히바리를 살려낸 야마하 보컬로이드를 비롯해 많은 관련 기업들이 ‘불편한 골짜기’(※인간과 닮을수록 호감도가 높아지지만 미세하게나마 인간과는 다르다는 걸 인지하면 오히려 느끼는 불쾌감)에 빠져 더는 기술이 좋아지지 않고 있다. 우린 그 골짜기를 벗어났다. 2019년 가장 크고 권위 있는 음성국제학회에서 야마하가 아니라 우리가 최우수논문상을 받았다. 경쟁사보다 우리가 1년 이상 앞서 있다. 물론 치열하게 경쟁 중이라 지금부터 서비스를 내놓고 레퍼런스를 만들어야 격차를 유지할 수 있겠지만.”
 
기술 격차를 어떻게 벌렸나.
“기술의 근본이 다르다. TTS(Text to Speech·글을 말로 읽어주기) 기술은 오래전부터 구글·네이버 등이 다 달려들었다. AI 스피커에서 경험하고 있듯 3~4년 전부터 급격하게 발전했다. 다들 거기 매몰돼있을 때 우리는 ‘글 대신 노래를 부르게 하면 어떨까’라고 접근했다. 오디오북이나 아나운서를 대체하는 등 TTS 쓰임새가 훨씬 많다 보니 다들 그쪽에 집중했다. 우리는 악기 두세 개는 다루고 밴드 활동할 정도로 다 음악을 좋아하는 사람들이라 일찌감치 연구를 시작했다. 덕업일치다. (※이 교수는 대학가요제를 준비하던 가수 지망생이었고, 뉴욕대에서 뮤직 테크놀로지를 전공하고 스탠퍼드 CCRMA연구소를 거쳐 2009년 귀국했다) 서비스 타깃을 콘텐트 만드는 데 쓰겠다는 곳은 국내선 유일무이하다. 그러다 보니 마침 코로나19 사태 이후 주 수익원이던 오프라인 콘서트가 막히면서 활로를 찾고 있던 엔터 업계가 바라던 기술을 우리가 보유하게 된 거다. 새로운 큰 시장이 열릴 거로 내다보고 연예인 관련 IP(지식재산권)를 보유한 엔터 업계와 기술적 엣지가 있는 IT업계가 합종연횡하고 있다. 웬만한 큰 엔터·게임 회사는 다 접촉해왔고, 그중 하나가 이번에 투자한 빅히트다.”
 
트렌드를 앞서 읽은 건가.
“2000년대 중후반 관련 연구자들이 오디오는 돈 안 된다고 다 그만뒀다. 그때 혜성처럼 나타난 게 이 교수다”(최 이사).

“트렌드를 좇은 게 아니라 그걸 무시하고 한 우물을 파다 보니 어느 순간 그게 대세가 됐다. 유학 시절 머신러닝 수업 들었는데 재밌어서 음악에 적용을 빨리한 편이다. 지금 기술 수준은 딥러닝 힘이 컸다.”
 
수퍼톤 기술은 어떻게 활용하나.
“가령 시간 부족한 톱스타가 오디오북을 녹음하고 광고를 찍을 수 있다. AI 스피커의 유명 가수 목소리 알람을 상상하면 쉽다. BTS가 한국어·영어뿐 아니라 세계 각국 언어로 동시에 노래할 수도 있다. 팬 입장에서 윤리적 문제를 제기할 수 있어서 이런 부분을 이중삼중으로 신경쓰고 있다. 이 기술로 누구의 권리도 침해받을 상황을 만들지 않겠다는 생각에 전문 자문 변호사를 뒀다. 죽은 가수를 소환하거나 하츠네 미쿠처럼 가상 캐릭터에 맞는 목소리를 사람 개입 없이 만들 수도 있고, 다른 한편으로는 최소한의 개입으로 펭수 리스크를 없애줄 수도 있다.”
수퍼톤 기술은 펭수 캐릭터를 연기하는 배우 걱정을 덜어주기도 한다. [사진 EBS]

수퍼톤 기술은 펭수 캐릭터를 연기하는 배우 걱정을 덜어주기도 한다. [사진 EBS]

펭수 리스크라니.
“EBS 캐릭터 펭수의 인기는 캐릭터뿐 아니라 배우 공이 크다. 만약 배우 신상에 문제가 생기면 어마어마한 IP가 하루아침에 무너질 수도 있다. 몸값이 너무 높아져도 콘텐트 수익성이 악화한다. 펭수·미키마우스 등 모든 잘 나가는 캐릭터 IP가 지닌 문제다. 우리 기술로 기존 성우(배우) 목소리를 기반으로 새로운 소리를 만들어내 캐릭터에 입히면 이런 문제를 해결할 수 있다.”
 
그렇게 창출되는 값어치는 얼마일까.
“김광석을 예로 들면 목소리 제공한 유족과 이를 구현한 우리가 1대1의 지분이 있다고 생각한다. 하지만 원본 없는 콘텐트(목소리)라면 가수든 배우든 인기에 따라 엄청난 몸값을 받을 수 있다.”
 
향후 계획은.
“완전히 새로운 영역이라 참고할만한 과거 사례가 없다. 상상력에 의존한다. 다만 올해부터 진짜 사업을 시작한다고 할 수 있다. 서비스로 고객 만족을 못 하면 한 방에 훅 간다. 하나 더. 음성(음향) 관련 소프트웨어부터 고가의 하드웨어까지 국산은 거의 없다. 진입장벽이 높다. 음악·영화 스튜디오든 개인이든 다들 수퍼톤 기술을 쓰는 날이 오면 좋겠다. 진짜 게임은 지금부터다.”
 
안혜리 논설위원
공유하기

중앙일보 뉴스레터를 신청하세요!