1. 우연한 상관관계
표본의 크기가 작을 떄에는 어떤 두 사건 또는 두 특성 사이의 의미 있는 상관관계를 항상 찾아낼 수 있다. 충치를 획기적으로 줄여줄 수 있을 것 같은 치약제조회사는 원하는 결과만 골라 발표했을 수 있다.
2. 공분산
공분산은 상관관계가 있다는 것은 명백하지만 어느 것이 원인이고 어느 것이 결과인지가 분명하게 드러나지 않을 떄 사용한다. 소득이 늘면 주식을 사고, 주식을 사서 다시 소득이 느는 경우는 어느 쪽이 원인이고 어느쪽이 결과인지 간단하게 결론을 내릴 수 없다.
특히, 어떤 변수도 다른 변수에 대해 아무런 영향이 없지만 두 변수 사이에는 어떤 상관관계가 존재하는 경우 조심해야한다. 결혼식이 많은 6월에 자살률이 높다고 해서 설득력이 있을까.
또한, 상관관계를 뒷받침하는 데이터의 범위를 넘어서 그 상관관계가 지속적으로 성립할 것이라는 추측은 위험하다. 비가 많이 오면 곡물은 잘 자란다. 하지만 홍수가 나면? 농사가 망할 수 있다.
'취업공부 > 통계학' 카테고리의 다른 글
[틀리지 않는 법] p해킹 (0) | 2019.09.03 |
---|---|
[새빨간 거짓말, 통계] 통계의 속임수를 피하는 다섯 가지 열쇠 (0) | 2019.09.03 |
[박스오피스 경제학] 막걸리로 파전 예측 (0) | 2019.09.03 |
[박스오피스 경제학] 텍스트마이닝으로 만들어진 '태티서' (0) | 2019.09.03 |
[박스오피스 경제학] 빅데이터와 상관관계 (0) | 2019.09.03 |