1. 우연한 상관관계

표본의 크기가 작을 떄에는 어떤 두 사건 또는 두 특성 사이의 의미 있는 상관관계를 항상 찾아낼 수 있다. 충치를 획기적으로 줄여줄 수 있을 것 같은 치약제조회사는 원하는 결과만 골라 발표했을 수 있다.

 

2. 공분산

공분산은 상관관계가 있다는 것은 명백하지만 어느 것이 원인이고 어느 것이 결과인지가 분명하게 드러나지 않을 떄 사용한다. 소득이 늘면 주식을 사고, 주식을 사서 다시 소득이 느는 경우는 어느 쪽이 원인이고 어느쪽이 결과인지 간단하게 결론을 내릴 수 없다.

 

특히, 어떤 변수도 다른 변수에 대해 아무런 영향이 없지만 두 변수 사이에는 어떤 상관관계가 존재하는 경우 조심해야한다. 결혼식이 많은 6월에 자살률이 높다고 해서 설득력이 있을까.

 

또한, 상관관계를 뒷받침하는 데이터의 범위를 넘어서 그 상관관계가 지속적으로 성립할 것이라는 추측은 위험하다. 비가 많이 오면 곡물은 잘 자란다. 하지만 홍수가 나면? 농사가 망할 수 있다.

블로그 이미지

Student9725

나에 대해 알아가는 시간들

,

사실 빅데이터는 인과관계가 아니라 상관관계를 보여주는 기술이다. 빅데이터를 활용하면 a라는 현상이 일어나면 b라는 현상도 함께 발생한다는 상관관계에 대해서는 많은 것들을 밝혀낼 수 있다. 하지만 a라는 현상의 원인이 과연 b일까라는 질문에 대해서는 똑 부러진 답을 주지 못한다. 떄문에 원인을 밝히는 것은 다시 연구자들, 즉 인간의 몫으로 남게 된다.

블로그 이미지

Student9725

나에 대해 알아가는 시간들

,