독서
통계의 미학(Statistical Thinking)
Kwang-sung Jun
2009. 4. 24. 17:23
: 수집하려는 데이터가 대표성이 있는가?
2부 - 다양성의 통찰
: "심슨의 패러독스", 하나의 기준으로만 나누면 이상한 결과가 보인다.
3부 - 비교 그리고 관계
: 대조군이 제대로 설정되었는가? 통계로 인과관계 파악하기
4부 - 예측과 판단
: 확률 높이기
사실 책을 구매하게 된 것은 4부에 나와있는 확률 문제 때문이었다. 이 책은 통계에 대해서 흔히 일반인들이 착각하거나 속기 쉬운 부분을 알기쉽게 설명하고 있다. 그러나 그 이상도 그 이하도 아니었다는 점이 조금 아쉽다. 책을 구매할 때 앞에 목차를 주로 참고하는 편인데, 소제목들은 매우 매력적이지만, 본문은 기대에 부흥하지 못하는 부분이 많았다.
어쨌거나, 1부에서는 데이터 자체가 대표성이 없는 경우 생기는 오류를, 2부에서는 다양한 측면을 지닌 통계자료를 한가지 기준으로 나눌 때 나타날 수 있는 왜곡현상을 설명한다. 3부에서는 인과관계 파악에 핵심을 두고 있으며, 4부에서는 지금까지 배운 분석으로 조금 더 '확률 높은 선택'을 하는 법에 대해 배운다.
내 생각에 핵심은 바로 4부가 아닐까 하는데, 흥미로운 문제가 있어서 여기에 소개하려고 한다. 이른바 <몬티 홀 문제>(위키바로가기) 라고 하는 것이다.




당신이 처음에 3번째 칸을 지목했다고 하자. 그러자 사회자는 기회를 한번 더 주겠다며 당신이 지목한 세번째 칸을 제외한 두 칸중 양이 들어있는 커텐을 하나 열어준다. 그러면 이제 당신은 두 가지 선택권이있다. 당신은 처음에 지목했던 칸을 열 것인가? 아니면 다른 하나의 칸을 지목하여 열 것인가? 어느쪽이 더 확률 높은 게임이 될 것인지 한번 생각해보자.
대부분의 사람들은 선택을 바꾸었다가 후회할 것 같기에, 바꾸지 않고 고수한다고 한다. 정답은 위키피디아에서 "몬티홀문제"를 검색해 보길 바란다. 나는 개인적으로 매우 충격적인 결과였다고 생각한다!