- 다양한 주제에 대해 자유롭게 글을 작성하는 게시판입니다.
Date | 19/03/22 15:45:56수정됨 |
Name | 세란마구리 |
File #1 | images.png (5.3 KB), Download : 10 |
File #2 | images_(1).png (4.5 KB), Download : 7 |
Subject | 의사는 어떻게 사고하는가 - 번외. ROC와 카파통계량 |
이번에는 수신자 조작 특성(Receiver Operating Characteristics; ROC)과 카파통계량에 대해 다뤄보도록 하겠습니다. 1편을 쓰고 바로 번외편을 작성하는 것이 좀 이상하기는 한데, 이번 내용 자체가 큰 흐름 상에서는 약간 벗어나 있으면서도 1편과 직접연결되는 내용이기에 번외로서 작성하게 된 점 양해 부탁드립니다. 1. 수신자 조작 특성(Receiver Operating Characteristics;ROC) ROC란 개념 자체는 의학에서 발생한 것은 아닙니다. '수신자'란 단어가 들어가 있는데, 사실 의학에서는 이러한 단어를 잘 쓰지 않거든요. 이 개념은 2차 세계대전 당시 영국에서 처음 착안하게 됩니다. 당시 영국은 런던 대공습이라 칭해지는 독일 폭격기들의 공습에 의해 많은 피해를 입고 있었습니다. 그러다 보니 영국군 측에서는 레이더를 통하여 폭격기를 추적 후 이에 맞추어 전투기를 보내 폭격기를 격추시켜 공습에 의한 피해를 줄이겠다는 당연한 생각을 하게 됩니다. 그렇게 하여 레이더를 가동하기 시작하였는데, 얼마 지나지 않아 문제가 발생하였습니다. 당시의 레이더는 별로 정확하지 않아 까마귀 떼와 폭격기를 구분할 수 없다는 점이 드러난 것입니다. 레이더의 수신자 감도를 낮출 경우에는, 까마귀 떼에 의한 출격(위양성)은 줄어들게 되나, 실제 폭격기를 검출하는 능력(민감도)까지 떨어져 폭격에 의한 피해가 발생하는 문제가 발생하였습니다. 반대로 레이더의 수신자 감도를 높일 경우에는, 실제 폭격기를 놓치는 일(위음성;1-민감도)은 적게 됩니다만, 까마귀떼를 보고 출격하는 횟수(위양성)는 늘어나는 문제가 발생하였습니다. 위양성인 경우에는 폭격에 의한 피해는 없으나, 그로 인해 안그래도 부족한 영국군의 자원이 낭비되는 문제가 발생하였지요. 그렇기에 영국군 내에서는 레이더 수신자 감도를 어떻게 조작하면 가장 좋을까에 대해 고민을하게 되였고, 그로 인해 나온 결과물이 맨위의 그래프입니다. 이 그래프를 보고 저희는 ROC curve라고 합니다. X축은 1-특이도(위양성률), Y축은 민감도로 놓고 각 수신자감도에 해당하는 (1-특이도,민감도)인 점을 찍어 이를 연속적으로 그려낸 곡선입니다. 이 곡선은 보통 좌측상단을 향해 볼록한 모양을 나타내게 됩니다. 가장 완벽한 검사는 위양성률이 0이고, 민감도가 1인 점이기에 좌측상단 끝이 이상적인 목표치입니다. 고로, 좌측 상단에 가장 가까운 수치를 수신자 감도로 설정하는 것이 바람직하다는 것을 위 그래프는 나타내고 있습니다. ROC curve에 대해서 보다 설명해 보도록 하겠습니다. 일단 그래프를 봐보죠 Test A와 B 중에 좌측 상단에 보다 가까운 것은 A입니다. 그렇기에 Test A가 Test B보다 우수하다고 말 할 수 있으며, 이를 정량적으로 Test A의 곡선하면적(Area Under the Curve;AUC)이 Test B의 AUC 보다 크기에 Test A가 우수하다고 말 할 수 있습니다. 다음으로 사실 가장 중요한 사실인데, 민감도와 특이도는 Trade off 즉, 한 검사 내에서 민감도가 증가하면 특이도가 감소하고, 특이도가 증가하면 민감도가 감소한다는 것 입니다. Test A를 예로 들어본다면, Y값(민감도)이 증가하면, X값(1-특이도)가 증가하기에 결국, 한 검사 내에서 민감도가 증가하면 특이도가 감소한다고 해석할 수 있습니다. 레이더 얘기로 돌아가보자면, 수신감도를 증가시키면(민감도를 높이면), 까마귀 떼에 의한 출격(위양성)이 많아진다고(특이도가 낮아진다고) 설명 할 수 있습니다. 민감도를 높이면서, 동시에 특이도를 높이려면 새로운 검사가 개발 즉 Test B에서 Test A로 넘어가는 수 밖에 없지요. 사실 저희가 설정하는 검사의 감도는 ROC curve의 좌측 상단에 가장 가까운 점은 아닙니다. 어느정도 가깝긴 하지만, 각 검사별로 민감도를 중시하거나 특이도를 중시할 수 있지요. 예로서 2017년에 미국심장학회에서 고혈압에 대한 기준을 종래의 140/90mmHg에서 130/80mmHg로 바꾸자고 주장하였습니다. 이는, 현재 고혈압에 의한 합병증이 많은 문제가 되기에, 보다 많은 위양성을 감수하더라도 민감도를 높여 많은 환자를 치료하겠다는 의도입니다. 반대의 예는 잘 안 떠오르네요... 일반적으로 검진을 하기 위한 것이나, 보다 중한질환을 감지하기 위한 것일 때는 민감도를 높이게 됩니다. 반대로 과잉진단 된다고 생각될 때 특이도를 높이게 되고요. ROC curve에 대해서 언급하게 된 것은, 의료소송 및 과잉진단에 대해 약간 이해를 부탁드린다는 생각에서 입니다. 물론 의료소송에서 의료진의 잘못에 의해서 발생한 것, 과잉진단 또한 의료진의 고의에 의한 것이 있긴 합니다. 그렇지만, ROC에 따르면 의료소송(질환을 놓치는 것; 위음성)을 막기 위해서는 특이도를 희생(즉 위양성이 증가)하게 되고 이는 결국 과잉진단으로 이어질 가능성이 큽니다. 이를보고 방어진료라고 하지요. 결론적으로 완벽한 검사도, 병력도 신체진찰도 없기에 어느정도 위양성, 위음성은 존재할 수 밖에 없습니다. 이에 대해서 이해를 해주시고, 그렇다면 위음성, 위양성을 어디까지 허용해야 할 것인가에 대해서 어느정도 사회적 합의가 이루어졌으면 하는 생각이큽니다. 여담이 되겠지만, 개인적으로는 법조계에 있어서도 위의 ROC 딜레마에 빠져 있다고 생각합니다. 성범죄의 경우 민감도와 특이도 둘 다 높은 증인 및 증거가 없는 경우가 많습니다. 그렇기에 위음성(성범죄자를 놓친다.), 위양성(꽃뱀에 희생된다.)이 나올 가능성이 모두 높다고 생각합니다. 기본적으로는 in dubio pro reo(의심스러우면 피고를 위하여)라는 형법의 원칙에 따라, 위양성자를 줄이는 판결 및 기소를 해왔지만, 최근의 여론은 이에 대해서 용납하지 않고 있습니다. 그렇기에 위양성을 줄이기 위해, 위음성을 높이는 식의 판결이 최근 늘어나는 것으로 보이는데, 이에 따라서 억울한 사람들이 발생하여 이쪽의 문제제기도 최근에 거세지고 있지요. 뭔가 획기적인 도구가 개발되지 않는 한, 법조계 입장에서는 진퇴양난에 빠진 상황으로 보입니다. 이러한 때에, 민감도와 특이도는 Trade off니 어느정도 까지 위양성, 위음성을 허용할 것인가에 대한 논의가 필요하다고 개인적으로 생각합니다. 2. 카파통계량 아마 제가 설명할 개념 중에 가장 어려운 개념이, 카파통계량입니다. 의사들도 평소에 잘 안쓰는 개념인데 이걸 간략히 설명하자면, '의사마다 하는 말이 다르잖아'를 정량화 했다고 생각하시면 됩니다. K(카파통계량)=(Pa-Pb)/(1-Pb) 로 나타내며, 여기서 Pa는 '서로 같은 선택을 할 확률', Pb는'우연히 같은 선택을 할 확률'을 나타냅니다. 즉, K란 '둘의 의견이 실제로 다를 확률을 우연히 다를 확률로 나눈 값이지요.' 어려운 말이지만, 쉽게 말해 K 값이 높을 수록 서로 의견일치도가 높고, 낮을 수록 의견일치도가 낮다고 생각하시면 됩니다. 이를 판단할 때는 덧글의 그림처럼 하게 됩니다. 예를 들어 계산해 보지요. 두번째 그림에서 병리의A와 병리의B는 서로 같은 선택을 한 것이 색칠된 칸의 악성 15, 양성 170 이기에, 같은 선택을 할 확률 Pa=(15+170)/200=0.925 가 나오게 됩니다. 여기까진 쉬운데 Pb를 계산하는 것이 좀 복잡합니다. Pb = 우연히 서로 악성이라고 판단할 확률 Px + 우연히 서로 양성이라고 판단할 확률 Py 로 계산하게 됩니다. Px는 병리의 A가 악성을 고를 확률=20/200 에 병리의 B가 악성을 고를 확률=25/200 을 곱한 20/200*25/200=0.0125 가 나오게 됩니다. 같은 식으로 Py는 병리의 A가 양성을 고를 확률=180/200에 병리의 B가 양성을 고를 확률=175/200을 곱한 0.7875가 나오게 됩니다. Pb=Px+Py = 0.0125+0.7875= 0.8이 나오게 됩니다. K=(Pa-Pb)/(1-Pb)=(0.925-0.8)/(1-0.8)=0.625가 나오게 됩니다. K값이 1이 되는(모든 의사의 의견이 같은) 경우가 바람직 합니다만, 여러 이유로 K값은 감소하게 됩니다. 이중에서 몇몇은 개선 가능하지만, 어쩔 수 없는 것들도 많지요. 몇가지 이유를 들어봅시다. (1) '검사의 정의 자체가 부정확한 경우 '가 있습니다. 예를 들어서 '환자의 근력이 정상이다.'는 것을 판단 할 수 있는 기준은 애매하지요. 모든 사람들이 비슷한 근력을 가진 것이 아니기에, 악력을 기준으로 한다 하더라도 개개인별로 천차만별이 될 수 있습니다. 원래 악력이 50kg인 사람이 30kg가 되었으면 저하라고 볼 수 있습니다만, 30kg인 사람이 30kg이면 저하라고 보긴 힘들지요. (2) 제게 해당하는 사항일지 모릅니다만, '의사의 능력 부족'입니다. 순환기내과 선생님께서 청진하면 들리는 제3심음을, 저같은 초보자는 못 들을 수가 있지요. (3) 검사치 자체의 생리적 변동. 혈압이 대표적으로 몇몇 검사치는 생리적으로 잴 때마다 달라집니다. 이러한 변동이 없으면 큰일이지요. (4) 의사가 집중을 안해서. 가장 피해야 할 사항입니다만, 다른데 집중하고 있거나 피곤할 경우 발생할 수 있지요. 예를 들어서 응급실에 심근경색 환자가 와서 처치 중인데, 발목을 삔 환자가 오면 발목이 삔 환자를 제대로 보지 않는 경우가 왕왕 발생합니다. 또는 철야를 하다보면, 내가 듣는게 환자 심음인지, 내 심음인지 헷깔리는 경우도 있지요... (5) 다음에 바이어스(bias)에 대해 설명할 예정입니다만, Bias가 있을 경우 입니다. 소위 답정너 이지요. 이게 오진의 가장 큰 이유이긴 한데, 앞으로 설명드리겠지만 참 어떻게 고치기가 힘듭니다...(인간은 heuristic적으로, 즉 Bias가 많이 끼는 방향으로 사고하도록 진화해 왔지요...) 이와 같이 의사가 진단이 달라지게 되는 이유가 여러가지 있는데, 이는 모든 검사에 해당할 수 있습니다. 영상은 물론이고, 피검사 자체도 절대적인 수치로 진단하는 고혈압, 당뇨 같은 것이 아닌 경향을 보는 질환인 경우 사람마다 진단이 달라질 수 있지요. 이는 (1)과 (3)의 항목이 있는 이상 어쩔 수가 없는 것입니다. 그렇기에, 병원마다 진단이 다르더라도 (2)만을 생각하지 말고, (1)과 (3)의 요인 때문에 어쩔 수 없을 수도 있구나 라고 어느정도는 이해해 주셨으면 하는 바람입니다. 이번에는 좀 수식이 많이 들어갔네요. 본과 들어와서 혈장삼투압 계산공식 =Na*2+포도당/18+BUN/2.8 보다 복잡한 수학계산을 안해 본 것 같은데, 계산이 많다 보니 틀린 게 발생하면 너그러히 이해해 주시고 댓글로 남겨주시면 감사하겠습니다. 10
|