본문 바로가기

[김선의 미래를 묻다] 생로병사의 비밀 풀기, 인공지능이 도전한다

중앙일보 2020.05.18 00:32 종합 24면 지면보기

BT를 만난 IT 

김선 서울대 컴퓨터공학부 교수

김선 서울대 컴퓨터공학부 교수

필자의 소속은 컴퓨터공학부다. 연구 분야는 암·비만·천식, 가뭄에 강한 벼 등등이다. 컴퓨터공학과 천식이라니, 이상한 조합이라고 생각할지 모르겠다. 그러면 이런 조합은 어떤가. ‘구글과 유방암’ ‘페이스북과 MRI’…. 그냥 막 지어낸 말이 아니다. 실제 구글과 페이스북이 하는 일이다.
 

복잡하기 그지없는 유전자 정보
인공지능 활용해 연구하고 분석
암·치매 조기 발견, 예방 가능성
인류는 ‘호모 데우스’ 될 수 있을까

바야흐로 융합의 시대다. 학문과 기술이 짝을 찾아 헤맨다. 바이오(BT)와 정보기술(IT)은 그중에서도 찰떡궁합인 것 같다. 인공지능(AI)과 바이오·의료 빅데이터가 만나 DNA를 서로 교환해서는 새로운 학문 분야를 탄생시켰다. 이름하여 ‘생물정보학(바이오인포매틱스·bioinformatics)’이다.
  
의사에 필적하는 인공지능의 영상 진단
 
그래픽=최종윤

그래픽=최종윤

어느 정도 알려진 영상 판독·진단이 그 대표적인 분야다. 인공지능이 X-레이나 CT·MRI 영상을 들여다보고 병에 걸렸는지 알아내는 기술이다. 몇몇 질병에 대한 영상 판독에서 인공지능은 이미 인간 의사와 막상막하일 정도가 됐다. 의사를 능가했다는 연구 결과도 있다. 구글이 올해 1월 1일(아마 의도적으로 날짜를 택한 것 같다) 발표한 유방암 진단이 그렇다. 인공지능이 약 3만 명의 X-레이 사진을 학습하게 한 뒤 의사들과 판독 경쟁을 시켰다. 결과는 인공지능의 승리였다. 근소하지만 인공지능의 정확도가 인간 의사보다 높았다.
 
인공지능은 폐암 진단에서도 인간에 필적할 수준에 이르렀다. 구글 인공지능이 CT 사진을 놓고 한 폐암 판독 정확도는 94%에 이르렀다. 이를 소개한 뉴욕 타임스 기사 제목은 ‘인공지능, 폐암 발견 시험에서 A 학점을 받다’였다. 인공지능이 뇌 MRI 영상을 분석해 치매 증상이 나타나기 10년쯤 전에 예보를 발령할 수 있다는 연구 결과(이탈리아 바리 대학)도 있다. 조금 다른 얘기이지만, 페이스북은 뉴욕대와 함께 인공지능을 활용해 MRI 촬영 시간을 줄이는 프로젝트를 진행하고 있다. 좁은 동굴처럼 답답한 MRI 기기 속에서 꼼짝 않고 있어야 하는 시간을 획기적으로 줄이는 게 목표다.
 
영상·판독 진단은 인공지능이 소질 있는 분야다. 인공지능은 아주 미세한 픽셀 하나하나까지 깔끔하게 읽어낼 수 있다. 보고 또 본다고 눈에 피로가 올 리도 없다. 영상 데이터만 잔뜩 있으면, 스스로 공부해 터득하는 데도 천부적 재질이 있다. 규칙은 전혀 가르쳐주지 않고 게임 장면만 많이 보여줘도 벽돌 깨기 오락의 고수가 되는 게 인공지능이다. 알파고는 비슷한 방법으로 공부해 프로 바둑기사 이세돌을 꺾었다. 어쩌면 인공지능에 의료 영상 판독·진단은 ‘천직(天職)’인지도 모르겠다.
 
그렇다고 해서 인공지능이 영상 진단을 하는 의사를 당장 대치하지는 않을 것 같다. 그보다는 ‘보조’역할이 유력하다. 인공지능이 인간 의사와 함께 1차 진단을 하고, 서로 의견이 다르면 인간이 2차 판별을 하는 식이다. 이렇게 해서 효율과 정확도를 한층 끌어올렸다는 연구도 있다.
 
X-레이·CT·MRI 판독은 인간이 하던 일을 인공지능이 돕는 분야다. 이와 달리 인간만으로는 꿈꾸기 어려웠던 세상 또한 인공지능이 문을 열고 있다. ‘유전자’와 관련해서다. 인간에겐 약 32억 개 염기가 늘어선 유전자가 있다. 이 안에는 생명과 질병에 대한 정보가 고스란히 담겨 있다. 자식이 부모를 닮는 식의 생김생김을 좌우하는 것은 기본이다. 범죄 현장에 남겨진 DNA를 분석해 범인의 몽타주 작성을 시도할 수도 있다. 신종 코로나바이러스(코로나19)가 침투했을 때 왜 누구는 끙끙 앓고 누구는 증상이 없는지, 똑같은 약을 먹었는데 어떤 이는 왜 효과가 없는지, 심지어 심각한 부작용까지 겪는 이유가 뭔지도 유전자를 판독하면 알 수 있다.
 
구글의 인공지능은 인간이 발견하지 못한 유방암 조직(네모)을 찾아냈다. 폐암 진단 실력 역시 인간과 비슷한 수준에 이르렀다. [로이터=연합]

구글의 인공지능은 인간이 발견하지 못한 유방암 조직(네모)을 찾아냈다. 폐암 진단 실력 역시 인간과 비슷한 수준에 이르렀다. [로이터=연합]

그러나 유전자 판독은 어마어마한 빅데이터를 다뤄야 하는 분야다. ‘고작 염기 32억 개가 무슨 빅데이터?’라고 생각할지도 모르겠다. 32억이 그리 큰 수라는 생각이 들지 않는 시대니까. 스마트폰 메모리만 해도 최소 수십 기가바이트(GB), 다시 말해 수백억 바이트 아닌가. 그런데 유전자 32억 개가 빅데이터라고? 그렇다. 혹시 학창시절에 배운 기억이 날지 모르겠다. 염기에는 A(아데닌), G(구아닌), C(시토신), T(티민) 네 가지가 있다. 이런 염기 32억 개가 모여 한 줄로 늘어서는 경우의 수는 4의 32억 제곱이다. 숫자로 쭉 풀어쓰면 대략 19억3000만 자릿수다. 그래도 감이 잘 오지 않을 것이다. ‘큰 숫자’ 하면 떠오르는 1조는 ‘0’이 12개 붙는 13자리 숫자다. 그러니 4의 32억 제곱은 ‘1조의 1조 배의 1조 배의 1조배의 1조 배의………’ ‘1조 배’란 말을 1억6000만 번 정도 늘어놔야 한다.
 
4의 32억 제곱에 이르는 인간 유전자의 다양성에 비하면 ‘1조’란 숫자는 새발의 피 속의 적혈구 한 톨도 안 되는 셈이다. 이뿐 아니다. 여기에 어떤 조건에서 어떤 유전자는 발현되고, 어떨 때는 안되고 하는 식의 온갖 다른 경우의 수가 더해진다. 그래서 유전자 관련 정보는 인간의 데이터 다루는 능력, 인간의 계산 능력으로는 범접하기 힘든 대상이었다.
 
하지만 인공지능이라면 가능하다. 이미 조금씩 적용하고 있다. 인공지능의 도움을 얻어 유전자를 판독해서는, 유방암 수술을 한 뒤 암이 재발할 확률이 어느 정도인지, 그래서 항암 치료를 해야 하는지 말아야 하는지를 결정하는 기술은 상당히 발전했다. 암을 아주 초기에 잡아낼 수도 있다. 암세포도 죽는다. 그러면 깨진 암세포에서 나온 DNA가 핏속으로 들어간다. 혈액 검사를 해서 이걸 찾아내면 ‘조기 진단’ 정도가 아니라 ‘조조조기 진단’을 할 수 있다. 그러나 핏속에서 극미량의 암세포 DNA를 찾는 것은 쉬운 일이 아니었다. 건초더미에서 바늘 찾기보다 훨씬 어렵다. (이젠 ‘새 발의 피’라든가 ‘건초더미에서 바늘 찾기’같은 속담을 바꿀 때가 된 것 같다.) 인공지능은 이것도 가능케 했다. 암세포 DNA를 찾아내는 것뿐 아니라, 어느 부위에서 암세포가 자라기 시작했는지까지 상당히 정확하게 짚어낼 정도가 됐다.
  
병원에 가는 이유가 달라진다
 
궁금증이 조금은 가셨을 것이다. 구글이 왜 유방암을 진단하고, 컴퓨터공학과 소속인 필자가 왜 암이나 비만 같은 것을 연구하는지. IT는 BT를 만나 생로병사를 더 깊이 이해하는 영역에 발을 들여놓았다. 중요한 목표 가운데 하나가 조기 진단, 나아가 예방이다. ‘아파서’ 병원에 가는 게 아니라 ‘아프지 않으려고’ 병원에 가는 세상을 만드는 것이다. 유발 하라리는 저서 『호모 데우스(Homo Deus)』에서 이렇게 말했다. ‘전례 없는 수준의 번영·건강·평화를 얻은 인류의 다음 목표는 불멸·행복·신성(神性)이 될 것이다. 굶주림·질병·폭력으로 인한 사망률을 줄인 다음에 할 일은 노화와 죽음 그 자체를 극복하는 것이다.’ 인공지능은 그 유력한 도구다.
 
바이오 빅데이터만으론 부족하다
생물정보학의 기본은 바이오 빅데이터다. 의료 영상은 이미 상당한 데이터가 쌓여 있다. 하지만 유전자 관련 데이터는 그렇지 않다. 게다가 비싸다. 빅데이터를 쌓는데 엄청난 돈이 든다. 약 20년 전 처음 인간 유전체를 판독하는 데 30억 달러(약 3조7000억원)가 투입됐다. 지금은 이 비용이 수백만원 정도가 됐다지만, 그래도 만만찮다. 수백만 명 데이터를 얻으려면 수조원이 든다.
 
그래서 한국은 정부가 나섰다. 올해 ‘국가 바이오 빅데이터’ 구축 시범사업을 시작했다. 내년까지 약 2만 명의 유전자 데이터와 임상 정보를 쌓기로 했다. 2029년까지 추진할 본 사업을 통해서는 총 100만 명의 데이터를 확보한다는 목표를 세워 놓았다. 하지만 데이터 구축만으로는 부족하다. 고급 식재료와 조리기구는 잔뜩 사놨는데, 정작 요리할 셰프는 없는 상황과 마찬가지다.
 
구슬이 서 말이라도 꿰어야 보배다. 데이터를 판독할 인재와 기술, 나아가 데이터 판독 기술을 개발할 인재가 필요하다. 정보(IT)·바이오(BT) 융합 인재다. 필자는 박사 과정을 밟겠다고 찾아오는 학생들에게 이렇게 말한다. “IT와 BT 박사 학위 두 개 딸 각오가 돼 있어야 한다.” 생물정보학은 그런 분야다. BT와 IT 양쪽에서 모두 전문가가 돼야 한다. 이런 인재는 쉽게 나오지 않는다. 바이오 빅데이터 구축과 더불어, 이를 활용할 융합인재를 키워내는 데도 본격적으로 시동을 걸 시간이다.
◆김선 교수
서울대 컴퓨터공학부 교수이며 생물정보연구소장이다. 미국 아이오와대에서 박사 학위를 받고 듀폰중앙연구소, 인디애나대 정보전산학과 교수(학과장) 등을 거쳤다. 현재 국가 바이오 빅데이터 구축 시범사업 추진위원을 맡고 있다.

 
김선 서울대 컴퓨터공학부 교수
공유하기
광고 닫기