평가와 판단의 정확도를 높이는 법

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

2023. 1. 20. 16:02

Daniel Kahneman, Oliver Sibony, and Cass Sunstein. 2021. Noise: A Flaw in Human Judgement. Little, Brwon Spark. 395 pages.

저자는 심리학 및 행동경제학자들이며, 이 책은 사람들이 평가하고 판단할 때 저지르는 오류에는 어떤 것이 있고, 왜 생기며, 어떻게 줄일 수 있을지에 대해, 심리학의 연구 결과를 인용하여 체계적으로 설명한다. 통계학적 논리가 논의의 바탕에 깔려 있다.

판사가 범죄자에게 부과하는 형량, 보험 감정사가 보험 대상에 대해 산정하는 보험료, 기업의 채용 인터뷰에서 지원자에 대해 매기는 평정 점수, 환자의 병에 대한 의사의 진단, 기업의 미래 매출 예측, 종업원의 업무 성과 평가, 등 거의 모든 평가와 판단 행위에서 평가자에 따른 평정 결과의 차이는 매우 크다. 이는 일반적인 평가뿐 아니라, 관련 분야의 전문지식을 요하는 전문가들 사이에도 의견의 불일치가 심하다. 저자는 참 값에서 멀어지는 현상을 '소음'(noise)이라고 칭한다. 사람들이 참 값에 근접한 평가를 할수록, 즉 노이즈를 줄일수록 효율과 공정성이 높아지기 때문에, 평가의 정확도를 높이는 것 내지는 평가자들 사이에 불일치를 줄이는 것은 실질적이며 중요한 과제이다.

노이즈의 구성 요소를 분석하면 다음과 같다. 동일한 대상에 대해 여러 평가자들의 평균값이 참 값에서 멀어진 것은 '편견'(biase)에 해당하는데, 사람들은 평가의 문제를 이야기할 때 주로 이것에 관심을 기울인다. 노이즈는 편견과는 별개로, 평가자들의 값이 서로 간에 벌어진 정도이다. 노이즈는 평가자 각각이 다른 사람과 구별되는 평균적인 성향인 level noise와, 이와는 별도로 특정 성격의 사례에 다르게 반응하는 pattern noise로 나눌 수 있다. 이 두가지 이외에도, 일관된 패턴이 없이 그때 그때의 평가 환경에 따라 다르게 평가하는 occasion noise 가 있다.

노이즈가 발생하는 원인은 다양하다. 평정해야 하는 어려운 문제 대신, 그보다 쉬운 다른 문제로 대치하여 평정하려는 심리적 성향, 평정하는 기준이 되는 잣대가 사람에 따라 다르기 때문에 나타나는 차이, 평정자 개인의 과거 경험이나 가치관에 기인한 특이한 평가, 등등.

노이즈를 줄이는 여러 방법을 소개한다. 평가자의 지능이 높고, 관련 전문성이 높을수록 노이즈는 작다. 여러 평가자들이 독립되게 평가하도록 하여 이들의 평가 결과를 평균하면, 개별 평가자의 평가 결과보다 노이즈가 작다. 이는 "군중의 지혜"(wisdom of the crowd)라는 원리를 적용한 것이다. 평가에 직접적으로 필요하지 않은 정보를 배제함으로서 사전적인 편견을 줄이면 노이즈가 줄어든다. 평가 대상을 구성하는 영역을 분석적으로 구분하여, 각 영역에 대해 독립적으로 평가하고 이들을 종합하는 식으로 단계적으로 접근한다면, 평가 대상에 대하여 뭉뚱그려서 직관적으로 평가하는 것보다 노이즈를 줄일 수 있다. 평가 척도의 각 값에 대해 구체적이고 알기 쉬운 사례를 제시하여, 평가자들이 평가 척도의 각 값에 해당하는 사례와 평가 대상을 비교하는 방식으로 평가하도록 한다면, 평가자에 따른 척도의 주관성 문제를 어느 정도는 극복할 수 있다.

평가 대상들 사이에 순위를 매기는 것이, 평가 대상들에 대해 절대적 수준 점수를 부여하는 것보다 훨씬 쉽다. 이는 사람들이 절대적인 수준을 평가하기는 어려운 반면, 사례 비교를 통한 상대적인 평가는 비교적 잘 할 수 있기 때문이다. 그러나 평가 대상이 7개를 넘어서면, 인간의 마음이 한꺼번에 다룰 수 있는 복잡성의 범위를 넘어선다. 따라서 많은 수의 대상에 대해 일목에 전체를 비교하기보다, 단계적으로 접근하여, 먼저 몇개의 큰 그룹으로 나누어 순위를 매기고, 각 그룹 내에서 다시 구성원들 사이에 순위를 매기는 식으로 접근하는 것이 좋다.

평가 대상을 그와 유사한 범주의 한 예로 간주하여 범주 전체의 평균을 기본(base)으로 하고, 평가 대상에 대한 직관적인 평가 값을 다른 한극점으로 하여, 두 극점 사이에서 평가 대상이 그가 속한 범주 평균에서 벗어나는 정도에 따라 비례적으로 조정하는 방법을 적용하면 훨씬 정확한 평가를 할 수 있다. 이는 모든 사건은 평균으로 수렴한다는(regress to the mean) 원칙을 응용한 것이다.

기계적으로 규칙을 정하여 그에 따라 평가하거나 알고리즘을 적용하여 자동 평가하는 것이, 평가자 개인에게 재량을 크게 부여한 평가보다 노이즈가 훨씬 작다. 그러나 전문가들은 자신의 재량이 줄어드는 것에 심하게 저항하기 때문에, 기계적인 평가를 도입하기는 현실적으로 쉽지 않다. 또한 사람들은 평가의 정확성이 떨어지더라도, 기계나 규칙에 따른 자동 평가보다는 인간이 평가하기를 원한다. 그러나 평가의 정확성이 떨어지면 그에 따른 효율성 손실도 커지기 때문에, 규칙의 엄격성과 인간적 재량 사이에 어느 정도어데 타협점을 찾아 한다.

이 책은 저자의 이전 책인 Think, fast and slow 와 마찬가지로, 체계적인 연구 결과에 기반한 정보로 꽉꽉채운 제법 전문적인 책이다. 통계에 대한 사전 지식이 있기에 저자의 설명을 이해하는 것이 크게 어렵지는 않았다. 저자의 번득이는 지적 능력이 돋보이는 책이다. 규칙과 알고리즘을 통해 노이즈를 줄이는 것이 가능함에도, 전문가들이 판단의 재량권이 줄어듦과 함께 권위가 줄어들 것을 염려하여, 갖은 이유를 대면서 규칙과 알고리즘의 도입을 반대한다는 비판이 통렬하다.

과거 기계화와 자동화가 진행되면서 노동의 기술수준이 떨어지는 "deskilling" 현상이, 앞으로 전문직 분야에도 확대되리라 예상한다. 과거에 장인(craftman)이 준기술직 (semi-skilled)에 의해 대체되었듯이, 전문직 또한 준기술직에 의해 대체될 것이다. 의료 분야에서 영상 판독이나 시험결과 판단이 의사로부터 컴퓨터와 준기술직 사람에게로 넘어가고, 세무사의 일이 세무 소프트웨어에 의해 대치되고 있듯이, 앞으로 판사와 변호사의 일이 법규와 판례를 해석하고 종합하는 소프트웨어에 의해 어느 정도 대치되는 날이 올 것이다.

저작자표시 비영리 변경금지 (새창열림)

'과일나무 > 살구나무' 카테고리의 다른 글

소재에 대한 상식을 넓히다 (0)	2023.01.23
언론의 언어 왜곡 (0)	2023.01.22
자신의 과거를 돌아보면 앞으로 나아갈 힘이 생긴다 (0)	2023.01.16
자아의 관성을 벗어나면 성공할 수 있다 (0)	2023.01.13
인디언, 흑인, 여성, 노동자, 제삼세계 사람들의 눈으로 본 미국사 (0)	2023.01.12

Trackback : Comment

'과일나무 > 살구나무' 카테고리의 다른 글

티스토리툴바