본문 바로가기

본문

한국어 잘하는 '네이버 초대규모 AI', 레고처럼 조립해 쓴다

중앙일보 2021.05.26 05:00
네이버 클로바 정석근 대표, 성낙호 책임리더.

네이버 클로바 정석근 대표, 성낙호 책임리더.

 
“네이버도 글로벌 테크 기업들의 인공지능(AI) 기술 주도권 경쟁에 동참했다” (정석근 네이버 클로바 대표)
 
“전문가가 아니어도 누구나 인공지능을 만들 수 있는 시대가 열린다” (성낙호 네이버 클로바 책임 리더) 
 
네이버가 자체 개발한 초(超)대규모 AI를 공개했다. 지난해 슈퍼컴퓨터를 구축하고 자체 AI 연구소를 확대 신설하는 등 그간 추진해 온 사업의 중간 결과물을 내놓은 것이다. 핵심은 ‘일반인도 쓸 수 있는 한국어 AI’ 였다.
 

초대규모 AI, 그게 뭔가

25일 네이버는 온라인 컨퍼런스 ‘NAVER AI NOW’를 열어 초대규모 AI ‘하이퍼클로바’를 공개했다. 네이버의 AI 담당 사내 독립기업인 클로바의 대표와 임원들이 하이퍼클로바의 기술과 비전을 설명했다.
 
· 초대규모(Hyper scale) AI는 기존 AI보다 빠르게 대량의 데이터를 분석해, 다방면에서 사람에 가까운 인지 능력을 나타내는 차세대 AI 시스템을 말한다. 일론 머스크 테슬라 최고경영자와 샘 알트먼 와이컴비네이터 창업자 등이 투자해 세운 연구소 '오픈AI'의  GPT-3 등이 초대규모 AI로 유명하다.
· 네이버 하이퍼클로바는 국내 기업이 자체 개발한 최초의 초대규모 AI다. 정석근 클로바 대표는 기조연설에서 “반도체에서는 집적도 수준이 높을수록 기술력이 올라갔다면, AI는 매개변수 갯수에 따라 문제해결 능력이 높아진다”며 “오픈AI의 GPT-3가 1750억 개 변수 규모로 개발됐는데, 하이퍼클로바의 매개변수는 2040억 개”라고 강조했다.
· 하이퍼클로바는 슈퍼컴퓨터를 이용해 기존 네이버 언어모델보다 처리 속도를 140배 높였다. 또한 사람이 정제하지 않은 데이터를 학습에 그대로 적용하는 '비지도 학습방법'으로 속도를 더 높였다. 성낙호 클로바책임 리더는 “하이퍼클로바는 백과사전 같은 대량 지식을 논리적으로 풀어내며, 대화의 맥락과 상대방의 만족도도 파악한다”고 설명했다. 
 
네이버 초거대 AI 하이퍼클로바. 사진 네이버

네이버 초거대 AI 하이퍼클로바. 사진 네이버

왜 만드는 건가  

구글이나 마이크로소프트, 아마존 같은 글로벌 빅테크 기업도 이미 각자의 초대규모 AI를 개발하고 있다. 공개도 한다. 하정우 네이버 AI연구소장은 “그들이 공개한 AI기술을 가져다 적용하는 것도 합리적인 면이 있지만, 자체 기술을 개발하지 않으면 글로벌 리더십을 가질 수 없다”고 말했다. 
 
· 하이퍼클로바는 한국어를 주로 학습했다. GPT-3 같은 글로벌 기업의 AI는 주로 영어를 배웠지만, 하이퍼클로바 학습 데이터의 97%는 한국어라고. 하정우 소장은 “한국어에 최적화한 언어모델을 개발해, AI 주권을 확보한다는 의미도 있다”고 말했다. 
· 네이버는 그간 이를 위한 투자를 지속해 왔다. 지난해 10월에는 700페타플롭(PF·1초당 1000조 회 연산) 이상 성능을 갖춘 수퍼컴퓨터를 구축했다. 최근에는 서울대 AI 연구원, 카이스트 AI대학원과 각각의 ‘초대규모 AI연구센터’를 설립해 산학협력 시동을 걸었다.
 

네이버의 강점은

네이버는 대한민국 가장 많은 사람이 사용하는 인터넷 사이트다. 이를 운영한 노하우와 여기에 쌓인 데이터가 하이퍼클로바를 키웠다.
 
·  초대규모 AI를 위해서는 ^다양하고 ^범용성 있으며 ^양질이며 ^충분한 양의 데이터셋이 필요하다. 네이버는 공개된 정보(오픈 리소스)나 전문 지식 데이터, 네이버뉴스와 지식인 콘텐트를 활용했다. 
·  네이버 카페나 블로그에 올라온 글도 AI개발에 활용됐다. 강인호 네이버 자연어처리 책임 리더는 “사용자가 ‘전체 공개’로 지정해 검색을 허용한 문서들을 수집했다”며 “간혹 포함된 전화번호 같은 개인정보는 비식별화(지움 처리) 했다”고 덧붙였다. 카페명과 블로그명도 문서의 추가정보(메타데이터)로 덧붙여졌다. 어느 카페의 문서인지 알면 카테고리를 파악할 수 있어서다.
· 하이퍼클로바는 이렇게 해서 5600억 토큰의 한국어 데이터를 학습했다. 강 책임 리더는 “이는 네이버뉴스 50년 치, 네이버 전체 블로그 9년 치 분량에 해당한다”며 “총 1.96테라바이트(TB)의 한국어 데이터셋을 활용했다”고 설명했다.
 
네이버 AI 하이퍼클로바와의 대화. 사진 네이버

네이버 AI 하이퍼클로바와의 대화. 사진 네이버

 

어디에 쓰나

목표는 대중화상용화다. 정 대표는 “곧 10개 이상의 네이버 서비스에 하이퍼클로바를 적용해 공개하겠다”고 했다.
 
· 네이버 쇼핑에 입점한 판매자의 마케팅에도 AI를 활용할 수 있다. 상품 이름과 제품 설명을 입력하면 AI가 ‘마음까지 부드럽게 하는 촉촉 로션’ 같은 홍보 문구나 이미지를 만들어주는 식이다. 사람처럼 고객과 대화하는 AI 상담도 가능하다.
· 네이버는 전문지식 없는 이도 이런 초대규모AI를 쉽게 작동시키고, 컴퓨터 프로그래밍 언어를 몰라도 맞춤형 AI를 만들 수 있게 하겠다고 한다. 초대규모 AI는 하나의 시스템을 구축하면 다방면에 활용할 수 있어서다. 장민석 기술 리더는 이를 위한 도구 '클로바 스튜디오'를 시연하며 “필요한 기능을 모아서, 레고블록을 조립하듯 나만의 AI를 만들 수 있다”고 설명했다.
 
심서현 기자 shshim@joongang.co.kr 

팩플

요즘 뜨는 기업 궁금하세요?
이메일로 구독 신청하세요. 요즘 핫한 테크기업 소식을 입체적으로 뜯어보는 ‘기사 +α’가 찾아갑니다. 구독신청 → https://url.kr/factpl
QR코드를 찍으면 팩플 구독 신청을 할 수 있습니다.

QR코드를 찍으면 팩플 구독 신청을 할 수 있습니다.

기자 정보
심서현 심서현 기자