A Field Guide for Science Writers_3장 과감한 스터디

통계학 이해 및 사용

 

*설문조사 및 과학적 연구의 모든 종류 요약: 클수록 좋은 경향이 있다는 걸 염두에 두고 숫자를 보라. 설문조사나 연구, 결론에 대한 어떤 대안적 설명은 없는지 스스로에게 물어라. 의도적이든 아니든 어떤 가능한 편견을 고려하라. 그리고 몇몇 불확실성의 확실성을 계속 염두에 두라.

 

연구를 짚어보는 원칙

1. 몇몇 불확실성의 확실성
과학에서 오래된 결론은 지속적으로 재점검되고 필요하다면 고쳐진다.

 

2. 확률, 파워, 그리고 큰 수
P 밸류(probability value) 0.05는 100번 중 5번 이하로 우연히 일어난 걸 뜻하며, 보통 이쯤이면 통계적으로 유의미
파워는 무언가가 거기 있을 때 그걸 찾을 가능성이며 관측값이 많을수록 높아짐.

ex) 부작용; 약을 사용한 횟수가 적으면 부작용이 나타나지 않을 수도 있다.
통계적 강도는 둘 사이의 관계 나타냄.
"숫자를 보여달라"

 

3. 다른 설명은 있나?
상관관계는 인과관계를 증명하지 않음.

ex) 자폐증과 예방접종; 예방접종 때문에 자폐증에 걸리는 것이 아니라, 그저 예방접종 시기와 자폐증에 걸리는 시기가 비슷한 것일 뿐. 자폐증을 염려하며 예방접종을 하지 않는다면 오히려 병에 노출될 위험도.

시간이 아주 중요할 수 있음

ex) 기후 변화; 시간이 지나면 인과관계가 드러날 수도 있다.
시간 지나면 대상이 바뀔 수 있음

ex) 건강한 노동자 효과; 공장에서 백혈병에 걸린 사람 연구함. 근데 시간이 지날수록 정작 백혈병 걸린 사람은 이미 다 공장을 그만 둬서 공장이 백혈병에 걸리지 않는다고 얘기할 수도 있음.
"다른 설명은 없나? 결론을 지지할 만큼 오래 이뤄졌나? 연구비 출처는 어디인가?"

 

4. 연구의 위계
까먹을 수 있는 회고 연구보다는 정확성 위해 추적 연구를
"연구 왜 그런 방식으로 설계했나? 당신의 결론 볼 때 뭘 주의해야 하나? 더 명확한 연구가 필요한가?"

 

5. 동료평가의 힘
"당신한테 누가 반대하는가? 왜? 당신의 발견 및 결과가 다른 과학적 연구 및 지식과 어떻게 어우러지나?"
현명한 리포터는 '증명했다'라는 단어는 거의 쓰지 않음 '아마...'랑 '증거가 가리키기론...' 등을 씀

 

 

-돈과 평균
"얼마 드나? 우리에게 감당할 여력은 있나?"
평균에 속지 말 것. 특정 개체가 아닌 집단 평균일 수 있다.

ex) 담배와 폐암; 담배와 폐암의 인과관계는 집단에서 평균 낸 것. 특정 개인이 담배 때문에 폐암에 걸릴 것이라고 말하긴 어려움. 실제로 미국의 담배업계는 이런 전략들을 이용해서 30여 년 간 담배-폐암의 인과관계를 부정, 소송을 회피했음.

 

-확률과 위험성
빈도≠빈도x일어난 횟수
둘 중 뭘 고르냐에 따라 좋아 보일 수도 나빠 보일 수도

ex) 비행기 사건 수 증가 vs. 비행기 사건 확률 감소; 최근에 비행기 사건 수는 증가했음. 그러나 비행기 운행 횟수는 그보다 더 증가하여 실제로 비행기 사건 확률은 감소했음. 어떤 걸 선택해서 보도하느냐에 따라 인상이 달라짐.
상대적 위험과 절대적 위험

ex) 전세계에서 2명 걸리는 질병을 2배 더 일으키는 화학물질 vs. 300만 명 걸리는 질병을 0.1% 더 일으키는 화학물질; 앞의 화학물질과 뒤의 화학물질도 마찬가지. '2배 vs. 0.1% 증가'라고 하면 전자가 더 위험해보이나, '2명 더 vs. 30만 명 더'라고 하면 뒤의 것이 더 위험해보임.

 

-설문조사의 잠재적 위험성
임의 표본 뽑아야 함

ex) 인터넷 쓰나? 설문조사; '당신은 인터넷을 사용하고 있습니까?'라는 설문조사를 회사 홈페이지에 게시한 경우 표본이 의미가 없음.
사람 많아질수록 표본 오류 한계 줄어듦 ±3% 이내여야
"그 질문의 정확한 워딩은 뭐였나? 누가 이 설문조사를 지원했나?"
설문조사는 스냅샷. 전체 흐름을 다 보여주진 못한다.

 


"연말 되면 데이터 쪽에 연락이 온다. 회사 임원들이 자신들의 연봉 협상을 위해 실적을 퍼센티지 또는 절대량으로 바꿔달라고 하기도."
"삼성 연봉이나 이공계 평균 연봉도 비슷하다. 삼성 평균 연봉이 높은 건 최고위 임원들 연봉이 압도적으로 높아서지, 모든 임직원 연봉이 다 높은 것은 아님. 이공계 평균 연봉이 높은 것도 이학계 공학계의 연봉은 높지 않으나 의학계 연봉이 포함되어서 높아진 것."
"이런 오해를 방지하려면 로데이터 공개가 필요하지 않나 생각이 든다."

"최빈값 평균 중앙값이나, 평균과 표준편차 등이 공개되지 않아서 그런 것 같기도 함."
"평균과 확률 오해라고 하니 얼마 전 핵발전소 이야기가 떠오른다. 정확히 기억은 나지 않는데, 전세계 100대의 핵발전소 있는데 그 중 2대에서 사고가 났다는 걸 토대로, '우리나라에 10대가 있으니 2/100 * 10(대) *100(%)= 20(%)의 확률로 핵발전소 사고난다'는 그림이 떠돌았음. 그런데 여기서 확률(빈도)은 2/100이고, 여기에 10(대)를 곱한 결과인 0.2(대)는 확률이 아니라 사고가 날 기댓값임."

Leave Comments


profile안녕하세요. 과감입니다.