본문 바로가기

[비즈 칼럼] 인구센서스는 모든 빅데이터의 기반

중앙일보 2015.11.03 00:10 경제 8면 지면보기
기사 이미지

유경준
통계청장

빅데이터 활용이 대세가 돼가고 있지만 일반인에게는 빅데이터의 개념과 용도는 여전히 낯설고 이해하기 어려운 것이 사실이다. 통계청에서는 빅데이터를 ‘연계와 분석을 통해 유용하게 사용할 수 있는 모든 데이터’를 지칭하는 것으로 정의하고 있다. 빅데이터는 현재 소비자의 구매패턴을 분석해 자동으로 할인혜택을 제공해주거나 실시간 교통정보를 제공하는 내비게이션 등 다양한 분야에 이용되고 있으며, 향후 어디까지 활용 범위가 확장될지 예측이 불가능할 정도로 무한한 가능성을 내포하고 있다.

 빅데이터는 분명히 장점이 많지만 맹신은 금물이며 자칫하다간 낭패를 볼 수도 있다. 데이터의 양이 많다고 해서 무조건 빅데이터로 활용할 수 있는 것도 아니다. 데이터가 많지만 표본의 대표성이 없을 수 있다. 분석기법이 잘못되거나 자의적인 해석이 개입되면 일반 데이터 분석과 마찬가지로 심각한 오류가 생길 수도 있다. 또한 개인이나 기업의 식별번호(예를 들어 주민등록번호)와 연계된 자료를 활용하는 과정에서 개인정보가 유출된다면 큰 문제가 발생할 수 있음에도 유의해야 한다.

 통계청을 비롯한 정부에서도 빅데이터 활용에 적극적으로 나서고 있다. 정부는 많은 공공 행정데이터를 가지고 있기 때문에 이를 활용하는 방법을 오래 전부터 고민하고 실제로 정부 정책에 활용하고자 많은 노력을 해왔다. 그러나 올해 실시하는 2015년 인구주택총조사(인구센서스)가 바로 가장 대표적인 빅데이터를 수집하고 활용하는 정부정책이자 또한 모든 빅데이터의 기반이 될 수 있는 국가통계조사라는 점을 인지하는 사람은 많지 않다.

 이달 1일부터 15일까지 실시하는 올해 인구주택총조사는 방법이 크게 바뀌었다. 이전에는 5년마다 조사원이 전국 모든 가구를 일일이 방문하는 현장 전수조사를 하였다. 그러나 올해부터는 정부가 보유한 주민등록부, 건축물대장, 사회보험명부 등 행정 자료 24종을 이용해 인구, 가구, 주택에 대한 기본항목에 관한 전수조사를 미리하고, 행정기관 자료로 알기 어려운 사회변화상에 대한 항목에 대해서는 전체가구의 20%인 약 400만 가구를 대상으로 표본조사를 한다.

 이렇게 행정자료 등 공공 빅데이터를 이용해 실시하는 인구센서스를 등록센서스(register census)라 한다. 등록센서스는 사생활 보호 의식의 강화로 인한 응답거부 등의 이유로 네덜란드 등 많은 국가에서 채택하고 있는 선진 조사방식이다. 한국은 올해 등록센서스 도입으로 조사원 수가 과거 10만여 명에서 4만4000명으로 줄고, 조사 비용도 약 1400억원 절감할 수 있게 됐다. 또 방문조사를 받지 않는 국민에게 조사시간 30분씩을 돌려줄 수 있게 된 셈이어서 막대한 무형의 가치 창출도 기대하고 있다.

 2015인구주택총조사를 통해 파악된 인구와 가구에 대한 모든 정보는 개인정보가 철저히 보호되는 과정을 거쳐 향후 다른 공공자료뿐만 아니라 민간데이터와도 결합돼 또 다른 빅데이터 구축의 기반이 될 것은 자명하다. 이번 조사에 선정된 표본조사대상 가구의 적극적인 참여를 기대한다.

유경준 통계청장
공유하기
광고 닫기