지역감정은 투표권을 행사하는 평범한 사람을 위한 것이 아니라, 그 투표에 의해 선출되기를 바란 정치인을 위해 조장된 것이다. 대동소이한 사람을 임의의 기준에 따라 두 집단으로 나눈 뒤 집단 내부 결속을 강화하면서 다른 집단과의 소통을 단절하면, 시간이 지나면서 한 집단은 다른 집단에 비해 우월하다는 믿음과 상대 집단에 대한 적대감을 자발적으로 발전시키게 된다는 연구결과가 여럿 있다. 국민 통합을 방해하는 자들은 평범한 우리가 아니다. 보이지도 않는 미세한 차이를 과장해 우리를 또 다른 우리와 구별하도록 유도하고 이를 이용해 손쉽게 선거에서 선출되기를 바랐던(그리고 여전히 바라는) ‘그들’이다.

 

블로그 이미지

Student9725

나에 대해 알아가는 시간들

,

당신이 어떤 분석을 했는데 p 값이 0.06이 나왔다면, 당신은 마땅히 그 결과가 통계적 유의성이 없다고 결론 내려야 한다. 하지만 몇 년 동안 해온 작업을 서류함에 처박아 버린다는 것은 엄청난 정신력이 필요한 일이다. 그러고 보면 한 피험자의 수치가 약간 이상해 보이지 않는가? 어쩌면 그것이 예욋값일 수도 있으니, 스프레드시트에서 그 줄을 날려 보자. 참, 연령을 통제했던가? 바깥 날씨를 통제했던가? 연령과 바깥 날씨를 둘 다 통제했던가? 이렇게 통계적 시험을 조정하고 삭제할 재량을 스스로에게 부여하면, 종종 0.06을 0.04로 낮출 수 있다. 펜실베니아 대학 교수로서 반복 가능성 연구의 선구자인 유리 시몬손은 이런 관행을 [p해킹]이라고 부른다.

 

과학자들은 남들이 듣지 않는 곳에서는 이런 관행을 가리켜 <데이터를 고문해서 자백 받아 내기>라고 부른다

. 그 결과의 신뢰도는 완력으로 끌어낸 자백의 신뢰도 정도밖에 되지 않는다.

블로그 이미지

Student9725

나에 대해 알아가는 시간들

,

1. 누가 발표했는가? 출처를 캐 봐야 한다.
2. 어떤 방법으로 알게 되었는지 조사 방법에 주의해야 한다.
3. 빠진 데이터는 없는지 숨겨진 자료를 찾아 보아야 한다.
4. 내용이 뒤바뀐 것은 아닐지 쟁점 바꿔치기에 주의해야 한다.
5. 상식적으로 말이 되는 이야기인가 살펴 봐야한다. 석연치 않은 부분은 조사해라.

블로그 이미지

Student9725

나에 대해 알아가는 시간들

,

1. 우연한 상관관계

표본의 크기가 작을 떄에는 어떤 두 사건 또는 두 특성 사이의 의미 있는 상관관계를 항상 찾아낼 수 있다. 충치를 획기적으로 줄여줄 수 있을 것 같은 치약제조회사는 원하는 결과만 골라 발표했을 수 있다.

 

2. 공분산

공분산은 상관관계가 있다는 것은 명백하지만 어느 것이 원인이고 어느 것이 결과인지가 분명하게 드러나지 않을 떄 사용한다. 소득이 늘면 주식을 사고, 주식을 사서 다시 소득이 느는 경우는 어느 쪽이 원인이고 어느쪽이 결과인지 간단하게 결론을 내릴 수 없다.

 

특히, 어떤 변수도 다른 변수에 대해 아무런 영향이 없지만 두 변수 사이에는 어떤 상관관계가 존재하는 경우 조심해야한다. 결혼식이 많은 6월에 자살률이 높다고 해서 설득력이 있을까.

 

또한, 상관관계를 뒷받침하는 데이터의 범위를 넘어서 그 상관관계가 지속적으로 성립할 것이라는 추측은 위험하다. 비가 많이 오면 곡물은 잘 자란다. 하지만 홍수가 나면? 농사가 망할 수 있다.

블로그 이미지

Student9725

나에 대해 알아가는 시간들

,

이노베이션을 행하는 조직은 ‘이노베이션’의 의미를 잘 안다. 이노베이션이란 과학이나 기술이 아니라 가치다. 조직 안에서가 아니라 조직 밖에서 일으키는 변화다. 이노베이션의 척도는 바깥 세계에 대한 영향력의 크기다. 따라서 기업의 이노베이션은 늘 시장에 초점을 맞추어야만 한다. 시장이 아니라 제품에 초점을 맞춘 이노베이션은 ‘신기한 기술’을 만들어낼지는 몰라도 성과는 실망스러울 것이다.

블로그 이미지

Student9725

나에 대해 알아가는 시간들

,

일한 보람을 느끼게 하려면 일 자체에 책임감을 갖도록 해야 한다.

 

그렇게 하려면

1. 생산적인 일
2. 피드백 정보
3. 지속적인 학습

 

이 필수적이다.

블로그 이미지

Student9725

나에 대해 알아가는 시간들

,

빅데이터 기술이 가장 많이 쓰일 수 있는 곳은 역시 시장 트렌드 예측이다. <<여기에 당신의 욕망이 보인다>>에서는 다음 소프트가 2010년경 실시한 막걸리에 관한 소셜미디어 분석 사례를 소개한다. 당시는 막걸리에 대한 언급은 꾸준히 증가했지만 관련 시장이 미처 확립되지 않았던 때였다. 막걸리에 대한 여러 연관어 분석을 한 결과, 막걸리와 어울리는 안주로 ‘전’이 떠올랐다. 찜과 탕은 소주 안주로, 양식 요리는 맥주와 와인이 이미 짝을 이루었는데 막걸리와 짝을 이루는 음식에 대해서는 독자적인 시장이 없는 것이 확인되었다. 분석팀은 막걸리 시장 부상에 맞춰 연관 음식인 전 사업을 하는 것이 필요하다고 결론 내렸다. 이윽고 1년 안에 전 프랜차이즈 20여 개가 떠올랐다. 막걸 리가 언급되기 시작하면 관련 시장인 ‘전’ 시장이 필요해진다는 것을 예측한 경우다.

블로그 이미지

Student9725

나에 대해 알아가는 시간들

,

이미지 분석을 통한 엔터테인먼트 마케팅도 가능하다. 아이돌 그룹 소녀시대의 유닛그룹인 ‘태티서’는 네티즌의 평가를 분석, 활용해 탄생했다. 소셜 분석업체인 버즈인사이트는 텍스트 마이닝 기법을 활용해 ‘소녀시대’ 검색 키워드로 각 멤버들의 이미지. 재능, 퍼포먼스, 스타일 등을 분석했다. 이런 분석을 토대로 SM엔터테인먼트는 태연, 티파니, 서현 3명의 멤버로 유닛그룹을 구성하는 것이 효과적이라 판단했고, 결과도 성공적이었다.

블로그 이미지

Student9725

나에 대해 알아가는 시간들

,

사실 빅데이터는 인과관계가 아니라 상관관계를 보여주는 기술이다. 빅데이터를 활용하면 a라는 현상이 일어나면 b라는 현상도 함께 발생한다는 상관관계에 대해서는 많은 것들을 밝혀낼 수 있다. 하지만 a라는 현상의 원인이 과연 b일까라는 질문에 대해서는 똑 부러진 답을 주지 못한다. 떄문에 원인을 밝히는 것은 다시 연구자들, 즉 인간의 몫으로 남게 된다.

블로그 이미지

Student9725

나에 대해 알아가는 시간들

,

영화산업을 다루는 많은 논문들은 다양한 통계기법을 동원해 영화 투자수익률에 영향을 미치는 요소들을 골라낸다. 제작비 규모, 마케팅비, 배우, 감독, 스크린 수, 관람 등급 등이 영화 투자수익률에 얼마나 영향을 미치는지 우선순위를 가늠해 보기 위해서다.

 

일례로 서울대 이동기, 김상훈 교수 등의 연구에 따르면, 2005년에서 2006년 사이 개봉된 한국 영화의 투자수익률에서는 제작비, 마케팅비, 스크린 수 등이 배우나 제작사, 배급사, 감독보다 더 큰 영향을 미치는 것으로 나타났다. 즉 훌륭한 배우나 감독, 유명 배급사 등을 내세우는 것보다 제작비가 높을수록, 마케팅비가 높을수록, 그리고 스크린 수가 많을수록 수익률이 더 높게 나타났다는 이야기다. 이는 우리나라 영화 시장에서도 물량 공세가 강하게 통한다는 것을 의미한다.

블로그 이미지

Student9725

나에 대해 알아가는 시간들

,