본문 바로가기

자주 쓰는 한국어 어휘 16년간 4만8000개 분석

중앙일보 2014.04.15 00:21 종합 21면 지면보기
국어사전은 불친절하다. 자모 순에 따라 단어들을 배열한 후 그 뜻을 설명할 뿐 실생활에서 어떤 단어가 더 자주 쓰이는 중요한 단어인지 알 수 없기 때문이다. 연세대 국문과 서상규(55·사진) 교수는 그런 아쉬움을 풀기 위해 한국어 단어의 사용 빈도 조사에 나섰다. 1998년의 일이다. 소설·산문·교과서는 물론 녹취한 일상대화 등 218개의 텍스트에 실린 4만8000개의 낱말을 하나하나 분석했다.


『 … 의미빈도 사전』 낸 서상규 교수

 그 결과를 모아 『한국어 기본어휘 의미빈도 사전』(한국문화사)이라는 이름의 사전을 최근 펴냈다. 작업에 착수한 지 16년 만이다. 여러 텍스트에 걸쳐 자주 등장하는 단어 7200여 개를 추린 후 사용빈도를 조사했다.



 사전은 일러두기 성격의 설명 부분을 꼼꼼히 읽지 않으면 어떤 의미를 담고 있는지 알 수 없을 정도로 복잡하다. 가령 단어 ‘가격’의 경우 전체 빈도 합이 ‘81(0.0044%)’이라고 표시돼 있다. 218개 텍스트에 모두 81번 등장하고 사용빈도를 전체 단어의 총 사용횟수에 대한 백분율로 표시하면 0.0044%라는 뜻이다. 서 교수는 물건 값을 뜻하는 ‘가격(價格)’, 타격하다는 의미의 ‘가격(加擊)’으로는 각각 얼마나 자주 쓰였는지까지 분석했다.



 서 교수는 “ 컴퓨터 인공지능에 언어 기능을 집어 넣고자 하는 전문가 등에게 사전이 유용할 것”이라고 말했다. 특히 “단어의 사용빈도에 가중치를 부여해 통역 프로그램 등에 활용할 경우 정확도를 크게 끌어올릴 수 있을 것”이라고 했다.



신준봉 기자
공유하기

중앙일보 뉴스레터를 신청하세요!