nathan_H

"통계"를 더 이상 "통계"로만 보지 말라. 본문

끄적끄적/독서 서평

"통계"를 더 이상 "통계"로만 보지 말라.

nathan_H 2019. 6. 27. 23:07

숫자만 보면 거부감을 느끼는 사람들이 많다. 다행히도(?) 나는 숫자를 싫어하지는 않는다 학창 시절에 과목 중에 수학을 가장 좋아했다. 하지만 수학 중에서도 유독 확률과 통계에 대한 부분은 재미가 없었고 어렵게 다가왔다. 그리고 무엇보다도 나의 흥미를 자극하지 못했다.

하지만 올해 통계와 밀접한 데이터 분석과 머신러닝 분야로 학과를 바꾸면서 통계와 다시 마주치게 되었고 여전히 나한테는 쉽지 않게 다가왔고 흥미가 생기지 않았다. 하지만 그렇다고 이제는 더 이상 피할 수 없는 상황이다. 그래서 나에게는 이제 통계는 '잘'해야 하는 것으로 되어 버렸고 '잘'하기 위해선 무엇보다 통계에 대한 흥미가 필요했다.

사실 공부나 학습에 있어서는 가장 큰 동기부여는 '흥미'인 거 같다 흥미가 있다면 스스로 찾아서 공부하고 흥미가 없다면 어떻게 서든 안 하려고 하게 된다. 그리고 공부에 '흥미'가 생기기 위한 가장 좋은 방법은 바로 우리가 사는 삶에서 바로 적용 가능할 때인 거 같다.

이런 관점에서 보면 사실 통계는 우리 삶에서 많이 사용되고 있다. 그리고 통계는 생각보다 더  삶에서 강력한 도구로써 사용할 수 있다. 다만 단지 우리가 그것을 거부할 뿐...

 

하지만 이런 거부감을 조금 벗겨줄  '벌거벗은 통계학'이라는 책은 통계를 보다 쉽게 우리의 삶과 접목해 잘 설명해주고 있다.

 

 

 

 

복잡한 정보를 하나의 숫자로 표현하는 통계의 강력함과 함정. 

우리는 방대한 정보가 존재하는 세상 속에 살아가고 있다. 그러한 정보들을 들여다보기 위해서는 '요약'이 필요한데 그리고 이때 필요한 것이 바로 통계이다. 예를 들어 3억 3000명의 미국인들의 소득 이력에 대한 정리를 하기 위해선 미국인들의 평균 소득(평균값), 소득 분포, 중간 소득 값(중앙값), 가장 많은 소득 범위(최빈값) 등 통계를 통해 많은 인구의 소득을 한눈에 그리고 하나의 숫자로써 정리할 수 있다. 이처럼 통계는 방대한 데이터를 한방에 요약해줌으로써 우리에게 많은 효율성과 이점을 가져다준다.

 

하지만 여기서 주의해야 할 점이 한 가지가 있다. '요약'이라는 것은 많은 데이터를 단순화시킨 것으로 많은 부분 왜곡이 될 수 있고 어떤 기준을 가지고 요약하고 통하느냐에 따라 결과가 크게 달라지기 때문이다. 특히 요약된 수치를 통해 비교를 할 때에는 어떤 기준을 가주고 각 수치에 대해 "가중치"를 어떻게 부여했는지에 대해 들여다볼 줄 알아야 한다.

 

이에 대한 좋은 예시로 한국 대학 평가 순위를 보면 알 수 있다. 길거리를 돌아다니면 다양한 학교들이 "OOO 대학 OOO 평가 순위 1위, 상위권" 이런 현수막이나 기사를 본 적이 있지 않은가?  대학 평가 순위를 매길 때에도 평가 항목에 대한 가중치(%)가 어떻게 부여했고 그 항목들에 대한 가중치가 적절한지를 잘 살펴본다면 대학교 평가 순위가 그렇게 큰 의미를 갖지 못한다는 것을 알 수 있을 것이다. 그리고 대학교를 선정함에 있어도 각 학교에 대한 종합 평가 기준을 보기 보단 내가 가고자 하는 학과 / 분야에 대한 대학 순위 및 교수님, 학과 커리큘럼 평가표에 대한 정보를 파악하고 결정하는 것이 어찌 보면 더욱 현명한 선택이 될 것이다.(좀 더 이 사실을 일찍 알았더라면..) 이렇듯 우리는 통계를 통해 방대하고 복잡한 정보를 단순화시킴으로써 많은 이점을 얻을 수도 있지만 그와 동시에 왜곡된 정보를 얻을 수도 있다는 점을 기억하고 있어야 한다.

 

통계는 통찰을 위한 '도구'일뿐이지 '정답'은 아니다

 

 

Garbage In Garbage Out(결과 이전에 데이터를 먼저 살펴보라.)

 

나는 작년 대외활동을 통해 크라우드 펀딩을 한 적이 있는데 그때 상품에 대한 수요 조사를 위한 설문조사를 진행을 한 적이 있다. 그래서 상품의 주요 타깃과 부합한 사람들에게 설문을 부탁하고 그에 대한 결과를 토대로 상품을 수정하고 보안을 했었다. 뿐만 아니라 어떠한 프로젝트를 진행을 할 때에 꼭 설문조사를 통해 프로젝트에 대한 타당성을 검토를 하게 되는 것 같다.

그리고 이러한 설문 조사, 여론 조사는 우리 삶을 살아감에 있어 많은 부분 차지하고 영향을 주고 있다. 대표적으로 선거철에 예상 정당 특 표율, 예상 득표율 등과 같이 여론 조사를 통해 진행이 되는 것처럼 말이다.  이와 같이 어떠한 목적을 가지고 특정 집단에 대한 조사나 특징을 파악을 할 때 진행하는 것이 '표본 조사', '표본 추출'이라고 한다. 그리고 표본 추출의 핵심은 이 책에 다소 자극적인(?) 소제목인 " Garbage in Garbae Out"에 모두 담겨 있다.

 

표본 추출의 목적은 모집단 내가 분석 및 파악하고자 하는 집단의 특성을 파악하기 위해 적당한 수(크기)를 추출해 모집단의 특성을 파악하는 것이다. 즉 표본 추출의 결과가 모집단의 결과와 비슷하다고 예상을 하고 시작하는 것이다. 그리고 실제로 '올바른' 표본 추출에 모집단으로부터 얻어내는 것만큼 정확한 결과를 뽑아내는 경우가 많다.

 

하지만 반대로 보면 '올바른' 표본 추출이 아닐 경우에는 정말 엉뚱한 결과를 가져오고 오해를 불러일으킬 수 있는 것이 표본 추출이다. 그래서 표본 추출을 할 때에는 내가 파악하고자 하는 특정 집단과 유사한 집단을 대상으로 표본 추출을 진행을 해야 하고 그 데이터에 대한 철저한 타당성 검토가 진행이 되어야 한다. 그리고 무엇보다 '편향'되는 결과가 나오지 않도록 랜덤 샘플링, 즉 무작위 추출을 진행하는 것이 가장 바람직하다.

 

이해를 위해 정말 간단한 예시를 들자면 내가 만약 상품 혹은 서비스에 대해 기획을 있다고 가정을 했을 때 나의 상품과 서비스에 대한 수요를 조사하기 위해 내 주변 지인들에게 물어보고 설문을 돌리는 것이 과연 바람직할까? 아마 아닐 것이다. 내 주변 지인은 보통 '지인'이라는 선입견을 가지고 상품이나 서비스를 바라보기 때문에 그건 정말 시장에 대한 반응과 비슷할 수 있다고 볼 수는 힘들다.(물론 솔직한 피드백을 주는 지인들도 많기는 하지만..) 그래서 수요조사나 설문조사를 진행을 하때에는 내가 얻고자 하는 모집단을 명확히 정하고 그와 관련된 사람들을 대상으로 표본 추출, 무작위 추출을 진행하는 것이 바람직하다. 즉 표본 집단에 대한 철저한 검토가 필요한 것이다. 이렇듯 표본 추출은 작은 노력으로 큰 결과를 얻어낼 수 있다는 강력한 힘을 가지고 있음과 동시에 잘못된 표본들은 큰 오해와 함정 속에 빠뜨릴 수 있다.

 

"수프를 충분히 저었다면, 단 한 숟가락만 
맛을 봐도 전체 수프 맛이 어떤지 알 수 있어야 한다."

위 내용은 책에서 표본 추출에 대한 설명을 비유적으로 표현한 글이다.(나는 이 내용을 보고 표본 추출의 핵심을 단번에 이해하게 되었고 작가의 직관적인 비유적 설명에 감탄을 했다)  직관적으로 한번 더 풀어 설명하자면 내가 원하는 음식을 만들 때 제대로 된 재료가 준비되어 있지 않다면 내가 원하는 음식을 절대 만들 수 없다. 이와 같이 앞으로 여론 조사나 표본 추출이 필요한 상황이 되었을 때 이런 비유적인 표현을 떠올려도 좋을 것 같다.

 

 

통계랑 친해지고 싶다.

 

나는 이 책을 읽으면서 통계에 대해 궁금해졌고 생각보다 나는 바보처럼 살고 있었구나..라는 자아성찰도 많이 하게 되었다. 그리고 무엇보다 "통계"라는 놈과 가까이하고 싶은 마음이 생겨났다. 이건 책에서 얻은 지식보다 정말 큰 결실인 거 같다. 사실 세상은 이미 많이 수치, 숫자로써 표현되고 있는 부분이 많다. 그리고 누구는 숫자 때문에 웃고, 누구는 숫자 때문에 망하고 피해를 보게 된다. 이렇듯 "통계"라는 것은 우리가 험악한(?) 세상을 보다 현명하게 헤쳐 나가기 위한 좋은 도구이며 이 도구를 제대로 사용하지 못하면 큰 위험에 빠질 수도 있다. 그러니 이 글을 보고 있는 사람들은 꼭 '벌거벗은 통계학' 책을 통해 더 이상 '통계'를 거부하기보단 가까운 친구사이로 만들 수 있는 경험을 해보면 좋을 것 같다.

 

 

Comments