SBL 컬럼

SBL COLUMN
상식을 뒤집는 통계 -Simpson’s Paradox 2011-02-28
안상형 교수
안상형 교수

심슨의 패러독스는 여러 부분 그룹의 자료를 합했을 때의 결과와 각각 부분그룹의 결과가 다른 때를 말한다. 부분을 단순히 합쳤는데 그 결과가 부분의 결과와 달라지는 결과가 발생하는 것은 일반적인 상식으로는 쉽게 이해가 되지 않으므로 Paradox라 한다.

2011년 야구 시리즈에서 김한국선수와 이대한 선수가 타격왕 타이틀을 놓고 경쟁을 한다고 하자. 전반기 김한국 선수의 타율은 3할8푼2리였으며 이대한 선수의는 타율은 3할7푼8리로 전반기의 타격왕은 김한국선수였다. 후반기 김한국 선수는 3할6푼을 기록했고 이대한 선수는 3할5푼2리를 기록해 후반기의 타격왕도 김한국선수였다. 전반기 후반기 모두 김한국선수의 타율이 이대한선수보다 좋았으므로 2011년도 타격왕 타이틀은 당연히 김한국선수의 차지라고 모두가 생각했다. 그러나 전반기와 후반기 성적을 합한 2011년도의 타율은 김한국선수보다 이대한선수가 높아서 이대한선수가 타격왕에 등극을 했다.

전반기와 후반기 모두에서 김한국선수의 타율이 이대한선수 타율보다 높은데 전·후반기를 합한다고 해서 이대한선수의 타율이 김한국선수의 타율보다 높을 수 있을까? 상식과 다른 결과를 어떻게 설명을 할까?

2011년 전반기와 후반기 두 선수의 성적은 아래 표와 같다.

표 1-2011년 전반기 타율

표 1-2011년 전반기 타율

표 2-2011년 후반기 타율

표 2-2011년 후반기 타율

위의 표와 같이 전반기, 후반기 모두에서 김한국선수의 타율이 이대한선수의 타율보다 높았다.

전반기와 후반기를 합한 2011년 전체의 성적은 아래와 같음

표 3-2011년 타율

표 3-2011년 타율

표에서 보듯이 이대한선수의 타율은 3할7푼이고, 김한국선수의 타율은 3할6푼6리로 이대한선수가 김한국선수를 누르고 2011년 한국 야구의 타격왕 타이틀을 차지하게 되었다. 전반기에서도 1등을, 후반기에서도 1등을 한 선수는 전·후반을 합쳤을 때도 당연히 1등을 해야 하는데 위의 경우에는 전·후반을 합쳤을 때 2등이 된 역설이 발생했다.

위의 예와 같이 상식적으로 불가능해 보이는 일이 사회과학과 의료 통계 등에서는 자주 발생한다. 가장 잘 알려진 현실적인 심슨의 역설은 캘리포니아 주립대학-버컬리(U. C. Berkeley)가의 대학원 입학에서 남자 지원자에게 유리한 결정을 했다고 성차별을 했다고 고소를 당한 것이다. 이 때의 자료를 알기 쉽게 각색한 표는 다음과 같다.

공학부와 문학부를 합한 남녀학생의 합격률은 <표4>에서 보듯이 현저한 차이가 있어서 성별간 차별이 있다고 UC-Berkeley는 고소를 당했다.

표 4-공학부와 문학부 전체 합격률

표 4-공학부와 문학부 전체 합격률

피소를 당한 UC-Berkeley의 공학부와 문학부의 입학자료는 아래와 같다.

공학부의 자료는 <표5>와 같다.

표 5-공학부 남녀 합격률

표 5-공학부 남녀 합격률

문학부 자료의 자료는 .<표6>과 같다

표 6-문학부의 남녀 학격률

표 6-문학부의 남녀 학격률

위의 표에서 보듯이 공학부와 문학부 모두에서 오히려 여학생의 합격률이 남학생의 합격률보다 높았다. 이 결과 UC-Berkeley는 성차별을 하지 않은 것으로 판명이 나고 고소는 취하되었다.

공학부와 문학부 각각에서 여학생의 합격률이 남학생의 합격률보다 높은데, 두 학부를 단순히 합하면 남학생의 합격률이 오히려 여학생의 합격률보다 높은 상식을 뒤집는 일이 발생하게 된다. 다시 말해 부분에서 성립하던 성질이 부분들을 합한 전체에서는 성립하지 않는 심슨의 패러독스가 발생했다.