본문 바로가기

[노트북을 열며] 데이터가 서 말이라도 꿰어야 보배다

중앙일보 2018.04.06 01:20 종합 30면 지면보기
김한별 디지털콘텐트랩장

김한별 디지털콘텐트랩장

지난달 29일 고위 공직자 2249명의 재산 내역이 공개됐다. 정부·대법원·중앙선거관리위원회는 관보에, 국회와 헌법재판소는 각자의 공보에 자료를 올렸다.
 
고위 공직자 재산 등록·공개는 공직자윤리법에 따른 의무다. “공직자의 부정한 재산 증식을 방지하고, 공무 집행의 공정성을 확보”하는 게 목적이다. 쉽게 말해 나랏일 한다며 부정 축재를 하진 않는지, 공익(公益)보다 사익(私益)을 앞세우진 않는지 국민이 감시하자는 것이다.
 
중앙일보는 재산 공개 당일 각 기관의 데이터를 한데 모아 독자에게 제공했다(news.joins.com/DigitalSpecial/280). 재산 순위 1~2249등이 누군지, 재산 내역에 이상한 점은 없는지 꼼꼼히 들여다봤다.
 
관련기사
하지만 그 과정은 순탄치 않았다. 여러 문제가 있었지만 자료가 PDF 파일로 공개된 게 첫 번째 걸림돌이었다. PDF는 미국 어도비사가 1992년 개발한 국제 표준 문서 양식이다. 윈도 PC나 맥 등 어떤 컴퓨터에서 보든 같은 모양으로 보이는 게 특징이다. 작성된 문서를 수정할 수 없어 보안성이 높은 것도 장점으로 꼽힌다. 하지만 이는 철저히 ‘공급자 관점’에서 그렇다는 거다. ‘사용자 관점’에서 보면 정반대다.

 
이번에 공개된 공직자 재산 내역은 A4지 4054장 분량이다. 제목 등을 빼고 실제 데이터가 담긴 표 부분만 따져도 총 4만2446행이나 된다. 이런 방대한 데이터를 분석하자면 일단 각 문서의 표를 하나로 합쳐야 하는데 PDF는 그게 불가능하다. 더구나 컴퓨터의 표 계산 프로그램(스프레드 시트)은 PDF를 읽지 못한다. 그 때문에 모든 파일을 스프레드 시트가 읽고 쓸 수 있는 형식(CSV)으로 바꿔 줘야 한다. 파일 변환에 성공해도 문제는 남는다. 표의 행렬이 어긋나 이를 하나하나 바로잡아 주지 않으면 계산이 안 된다.
 
물론 방법이 전혀 없진 않다. ‘지저분한’ 원본 데이터를 컴퓨터가 알아서 정제하도록 새로 코딩을 하면 된다. 중앙일보도 그렇게 했다. 하지만 일반 국민 중에 그럴 사람이 얼마나 될까. 결국 공직자 재산 내역을 PDF로 공개하는 건 “우리가 주는 대로 보기만 하고, 쓰지는 말라”는 의미밖에 안 된다.
 
하기야 이번보다 더한 적도 있었다. 지난해 대통령 선거 때 선거관리위원회에 정보 공개를 청구해 받은 후보자 데이터는 종이서류를 스캔한 PDF였다. 말만 문서지, 사실 ‘그림’이었던 셈이다. 이런 PDF 데이터를 쓰자면 일일이 수작업을 하는 것 외엔 방법이 없다.
 
소위 ‘4차 산업혁명 시대’라면서 공공 데이터를 기계(컴퓨터) 인식이 안 되는 PDF로 공개하는 건 난센스다. 제발 ‘공급자 관점’을 버리자. 정부의 목적이 “우리는 공개했다”고 생색만 내는 게 아니라면.
 
김한별 디지털콘텐트랩장
미세먼지 실험 아이디어 공모, 이벤트만 참여해도 바나나맛 우유가!
공유하기
광고 닫기

미세먼지 심한 날엔? 먼지알지