저는 통계가 거짓말이라는 주장을 굉장히 싫어합니다. 마치 일부의 용례를 가지고 전체를 호도하는 듯한 느낌을 받아서 그렇습니다. 이 책은 몇 년 전에 접했지만, 제목에서 이미 부정적 감정이 있었기에 펴보지도 않고 pass했습니다.
몇 개월이 지난 후, 이 책에 대해 흥미로운 소개를 하는 책을 만났습니다. 명저 [벌거벗은 통계학]의 저자 찰스 윌런은 마지막 부분에 있는 감사의 글에서 이 책, [새빨간 거짓말, 통계]를 언급합니다. 그는 이 책이 1950년대에 나온 고전이고 100만부이상 팔렸으며 자신에게 큰 영감을 주었다고 말합니다.
명저의 저자에게 큰 영감을 줄 수 있는 책은 어떤 책이었을까? 얼마나 더 명작이길래? 라는 궁금증을 가지고 읽게 되었습니다.
이 책은 많은 연구와 보고서, 또 일상생활까지 스며든 잘못된 통계적 방법의 사용이 어떤 것들이 있는지, 재미있는 예시들을 들어가며 지적합니다. 크게 10개의 파트로 나누어 통계학의 중요개념들을 복잡한 수학적 수식들과 어려운 개념을 숫자가 아니라 말로 설명합니다. 재밌는 이야기가 많아 이 책은 조금 자세하게 다루고 싶어 글이 길어질 듯 합니다.
1. 언제나 의심스러운 여론조사
31쪽에 재밌는 예시가 나옵니다. 배경은 2차 세계대전 중의 미국. 국립여론조사기관에서 미국 남부의 한 도시에 사는 흑인 500명을 인터뷰합니다. 조사과정에서 두 조사단을 꾸렸는데, 한 쪽 조사단은 백인들로만, 다른 조사단은 흑인들로만 구성했습니다.
조사지에는 이런 질문이 있었습니다.
“일본군이 미국을 점령한다면, 흑인에 대한 차별은 지금보다 더 하겠는가 덜하겠는가”
흑인 조사단의 조사결과, 이 질문에 대해 차별이 더 심해질 것이라고 대답한 흑인의 수는 응답자 수의 25%였습니다. 반면, 백인 조사단이 조사했을 때는 45%나 되었습니다.
다른 사례를 보겠습니다.
1936년 미국의 Literary Digest사에서 루즈벨트와 랜든 간 대선 관련하여 설문조사를 했습니다. 회수된 설문지의 분석결과 랜든이 57% 루즈벨트가 43%의 결과로 루즈벨트가 질 것이라고 나왔습니다. 반면, 실제 대선에서는 루즈벨트가 63.5%의 압도적인 표를 얻어 당선됩니다. (출처 – 성내경 저, ‘표본조사방법론’)
위의 결과들은 보면, 여론조사 결과는 상당히 보수적으로 왜곡되어 나옵니다. 왜 그럴까요?
작가는 여론조사가 속임수에 의해 조작된 것이 아니라, 표본 자체가 한 방향으로 기울어져 버리는 경향이 있다고 합니다. Literary Digest가 조사한 표본은 사실 원래 측정하려던 모집단보다 더 부유하고, 교육수준이 높고, 예의바른 사람들이었습니다.
2. 평균은 하나가 아니다
2장의 내용은 조금만 통계학을 사람들이라면 기술통계학(descriptive)에서 질리도록 들어봤을 수 있습니다. 평균, 중위수, 최빈값에 관한 이야깁니다. 통계학 교과서에서도 단골소재죠.
핵심을 간단히 표현하면 ‘어느 경우에 무엇을 대푯값으로 사용하는 게 좋고, 언제 평균이 문제가 되는가’ 정도가 되겠습니다.
어느 원시 부족 남자들의 평균 신장이 150cm라는 말을 들으면 꽤 정확한 그림이 그려집니다. 평균과 중위수, 최빈값 간의 차이가 거의 없기 때문이죠. 그렇게 되는 이유는 키나 몸무게. 가슴둘레 등의 자료들이 정규분포라 불리는 곡선에 가까운 예쁜 종모양으로 나타나기 때문이죠.
그런데 연간소득분포에서는 어떨까요. 대부분 대략 2억원을 넘지 않는 소득을 올렸을 것이고, 전체의 95%이상의 세대가 올린 소득은 1억원 이하일지도 모르겠습니다. 이것을 곡선으로 그려보면 왼쪽으로 쏠린 모양이 나타날 껍니다. 마치 계단을 따라 급하게 올라갔다가 꼭대기에서 서서히 내려가는 어린아이들의 미끄럼틀과 비슷하죠. 이 때 산술평균과 중앙값은 크게 차이나게 됩니다. 따라서 작년 소득의 산술평균과 올해의 중위소득을 비교하는 것은 의미가 없게 됩니다.
아까 원시부족의 평균키 150cm를 언급했었습니다. 아프리카 사람들의 작업복을 만드는 회사는 이것보다는 더 많이 고민 할 텐데요. 무엇이 더 필요할까요? (나중에!)
'취업공부 > 통계학' 카테고리의 다른 글
[통계학, 빅데이터를 잡다] 독감을 피하고 싶었어 (0) | 2019.09.03 |
---|---|
[식탁위의 경제학자들] 서평 (0) | 2019.09.03 |
[틀리지 않는 법] 모형이란 (0) | 2019.09.03 |
[통계의 미학] 모집단과 표본 (0) | 2019.09.03 |
[통계의 미학] 다양성을 염두하기 (0) | 2019.09.03 |