연초에 나는 Raj Chetty가 이끄는 The Equality of Opportunity 팀의 세대간 계층이동성에 대한 연구를 소개하면서, 데이터 측면의 특징으로 '조세정보'를 직접 사용한 것을 들었다. 구체적인 방법을 몰라서 궁금해 하던 차에, Science의 과학정책 에디터인 Jeffrey Mervis가 이에 대해 쓴 기사를 발견. 읽어보니 내가 일부 오해한 것도 있고, 추가적으로 알게된 것도 있고 해서 정리해 둔다.
우선 오해한 것. 나는 IRS가 소득세 정보 중 일부항목을 제거 또는 수정하여 신원 추적을 못하도록 한 후에 (소위 de-identification), 이를 연구자들에게 제공하고 연구자들은 이를 활용하여 연구를 수행한 것으로 생각했다. 이게 엄청나게 위험한 작업이고, 어려운 과제로 생각했던 것인데 이게 완전 오해였다. IRS는 가계단위의 조세정보는 가공여부와 무관하게 전혀 연구자들에게 제공하지 않았다.
흥미로운 것들.
사회보장번호. 미국의 경우 1978년부터 소득세신고서의 부양가족 항목에 사회보장번호를 적는 것을 의무화. 가공의 부양자를 적발하려는 것으로 실제 78년에 갑자기 부양가족수가 수백만명이 줄었다고. 내가 늘 주장하는 것이지만, 한국은 주민등록번호 천국이기 때문에 전세계 어디에도 없는 어마어마어마어마한 데이터가 있는 나라. 국세청자료에도 다 들어있고, 학교의 학적부에도, 수능시험 원서에도, 건강보험자료에도. 나는 언제고 이 모든 자료에 적절한 방식으로 억세스하게 하면 어마어마어마어마한 정책적 발전이 있으리라 믿는다. 그래서 프라이버시를 매우 중시하는, 그래서 주민등록번호를 적지 못하게 하자거나, 심지어 주민등록번호를 아예 없애버리자는 분들의 주장은 충분히 그 취지는 이해하지만 확 지지하게 되지는 않더라는.
IRS 외부 연구 지원. Chetty 등은 2011년 IRS 연구공모에 응해서 선정된 것. 그해에 총 51 프로젝트가 지원해서, 19 개가 선정되었고 최종적으로 16 개 연구가 수행. 우리나라 국세청도 이런 외부연구 프로젝트가 있는지 확인 필요. 실제 IRS도 외부연구에 무척 소극적이었는데, 프린스턴의 걸출한 경제학자 Alan Krueger가 재무부 수석 이코노미스트로 부임하면서부터 활기를 띄게 되었다고.
기이한 또는 절묘한 방식. 이게 가장 눈에 띄는데, 1) 랜덤한 숫자들로 채워진 더미 데이터를 연구진에게 제공 2) 연구진은 이 더미를 이용해서 프로그램을 테스트 3) 최종 프로그램을 IRS에 제공 4) IRS가 프로그램을 돌리고 5) 결과물을 연구진에게 제공. 어찌보면 진짜 비효율적이고, 오류가 많을 듯한데, 어쨌든 민감한 데이터를 건드리는 일이니 이것이 유일한 해결책인지도 모르겠다. 우리도 이런 방식 검토 필요.
재현 또는 검증. 사실 이렇게 연구가 수행되다 보니, IRS의 별도 승인을 받지 않으면 이들 연구의 핵심 발견에 대해 검증을 하는 것이 불가능한 문제가 있다. 이건 뭐 그 자체로 또 해결하면 될 듯하고.
좌우간, 이래서 국세청과 조세재정연구원에 대한 푸시가 필요한데, 한국경제학회나 재정학회 등에서 좀 나서야하지 않을까 하는 생각. 그 결과물이 어느 정파, 어느 계급에 직접적으로 유리불리할지는 모르겠으나, 어쨋든 나의 신조는 We can't do evidence-based policy without evidence 그리고 진실은 민중의 무기.