Judea Pearl and Dana Mackenzie. 2018. The Book of Why: the new science of cause and effect. Basic Books. 370 pages.
컴퓨터 과학자이며 과학철학자인 저자는 과학 활동에서 인과관계를 어떻게 효율적으로 탐색할지에 대해 설명한다. 그런가, 혹은 어떤 요인이 그런 결과를 초래하는가하는 문제는 질문하기는 쉽지만 답을 하기는 어렵다. 그에 답하는 첫번째 과정은 해당 사건과 관계가 있는 사건을 찾는 일이다. 그러나 상관관계가 있는 요인을 발견했다고 하여 그것을 원인으로 지목할 수는 없다. 예컨대 아이들의 신발 치수와 아이들의 문자 해득력은 높은 상관관계를 보이지만, 신발치수가 문자해득력을 초래한다고 추리하는 것은 오류이다. 숨은 제 3의 변수, 이 경우에 아이의 연령이 신발치수와 문자 해득력에 영향을 미친다.
상관도를 보이는 요인이 원인이 아니라는 것을 어떻게 아는가? 원인은 결과 이전에 발생해야 한다거나, 원인 사건이 발생하지 않으면 결과 사건이 발생하지 않아야 한다거나, 특정 사건이 일어나면 반드시 특정 결과가 일어나야 한다거나, 등의 판별 기준이 있지만 이 모든 요건을 만족시키지 않는 경우에도 우리는 원인으로 특정하기도 한다.
저자는 과학활동은 인과 모델을 가지고 데이터를 접근해야지, 데이터 자체를 분석한다고 하여 인과관계를 추출해 낼 수없다는 점을 거듭 강조한다. 빅데이터를 분석하고 통계 방법을 적용하는 것은 상관관계를 파악하는 것이지, 인과모델 자체는 통계 방법이 제시할 수없다. 인간은 본능적으로 인과 모델로 세상을 파악하는 습관을 가지고 있지만, 컴퓨터는 인과관계에 대한 아이디어가 없다. 원인을 특정하는 것은 매우 어렵지만 인과관계를 밝히는 것은 과학활동의 핵심이다. 흡연이 폐암의 원인이라는 것을 밝히는 과정을 통해 원인을 특정하기 위한 작업에서 부딛치는 어려움을 상세히 설명한다. 인과모델을 효율적으로 적용하기 위해, 인과 관계를 그림으로 표시하는 것이 효율적이라고 역설한다. 패스 분석이나 구조방정식 모델이 바로 그것이다.
인과 모델을 탐색하는 데에는 반드시 원인에서 결과쪽으로 검증하는 방법만 있는 것은 아니다. 어떤 사건이 일어났을 때 그 원인이 될 요인이 발생할 확률을 계산하는 방식, 즉 인과의 흐름을 거꾸로 되짚어가는 방식은 매우 유용하다. 베이즈의 조건부 확율론이 바로 그것이다. 우리가 설정한 인과모델에서 결과에 해당하는 정보를 알면 알수록 원인을 더 정확히 특정할 확률을 높일 수있다. 우리의 사고 체계는 인과의 흐름에 따라 생각하는 데 익숙해 있기 때문에, 이렇게 인과의 흐름을 거꾸로 거슬러 올라가 원인으로 의심되는 요인들의 확율을 특정하는 것은 생각하기 쉽지 않다. 그러나 현실적으로 인과의 흐름에 따라서 통제된 실험을 하는 것이 불가능한 경우가 많기 때문에, 이미 일어난 사건을 관찰하여 분석함으로서 원인을 특정하는 방식은 매우 유용하다.
이 책은 과학 방법론 책으로 가볍게 읽히지 않는다. 일반 교양서라고 생각하고 읽기 시작했는데, 읽다보니 전문 학술서적이라는 생각이 든다. 구체적으로 다양한 인과모델을 제시하고 어떻게 각각의 문제를 해결할 것인가에 대해 논의한다. 내용이 어렵기에 논의를 쫒아가기 힘들고 이해 안되는 부분도 많지만, 책 내용의 십분의 일만 이해했음에도 나의 연구에 실질적으로 도움이 되었다.
'과일나무 > 사과나무' 카테고리의 다른 글
인류의 미래 (0) | 2019.09.16 |
---|---|
다민족 사회의 고민 (0) | 2019.09.13 |
무엇을 먹을 것인가 (0) | 2019.08.06 |
예측의 기술 (0) | 2019.07.22 |
스트레스는 어떻게 사람을 망가뜨리나 (0) | 2019.07.13 |