판별(discrimination)과 보정(calibration)의 차이점은 무엇입니까?

판별은 모델이 환자를 분류하여 결과를 경험하는 환자가 그렇지 않은 환자보다 더 높은 예측 위험을 갖도록 하는 능력인 반면, 보정은 예측된 확률과 관찰된 빈도 간의 일치도입니다. 모델은 판별을 잘 할 수 있지만 보정이 좋지 않을 수 있으므로 둘 다 중요합니다.

임상 예측 모델에 외부 검증이 중요한 이유는 무엇입니까?

모델은 종종 구축에 사용된 데이터에서 낙관적으로 수행되는 경향이 있습니다. 독립적인 모집단 및 환경에서 테스트하는 것은 모델이 얼마나 잘 일반화되는지 보여주고, 사례 구성 또는 문서화가 개발 데이터와 다를 때 실패하는 도구를 배포하는 것을 방지하는 데 도움이 됩니다.

임상 진료에서의 기계 학습 및 예측 분석

기계 학습 및 예측 분석은 임상 및 건강 데이터의 패턴을 사용하여 개별 환자의 진단, 악화, 재입원 또는 치료 반응과 같은 결과의 확률을 추정합니다. 이 주제는 임상 예측 모델이 어떻게 개발, 검증 및 보고되는지, 그리고 신뢰할 수 있는 모델과 오해의 소지가 있는 모델을 구별하는 방법론적 표준을 다룹니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

임상 기계 학습은 환자 데이터로부터 통계적 관계를 학습하여 임상적으로 관련된 결과를 예측하는 알고리즘의 사용을 의미합니다. 임상 예측 모델은 여러 예측 변수를 결합하여 개별 환자의 진단(진단적) 또는 미래 사건(예후적)의 확률을 추정합니다.

Scope

이 항목은 진단 및 예후를 위한 지도 학습, 임상 환경에서 사용되는 데이터 소스 및 특징, 판별, 보정 및 외부 검증의 핵심 검증 개념, 편향 및 과적합의 위험, 그리고 TRIPOD 및 PROBAST와 같은 보고 및 평가 표준을 다룹니다. 임상 기계 학습을 방법론적 주제로 다루며, 예측 도구가 임상적 권고를 제공하기보다는 어떻게 구축되고 평가되는지를 설명합니다.

Key concepts

지도 학습 (진단 및 예후)
판별, 보정 및 임상적 유용성
내부 및 외부 검증
과적합 및 낙관주의
데이터셋 이동 및 일반화 가능성
알고리즘 편향 및 공정성
보고 표준 (TRIPOD) 및 편향 위험 평가 (PROBAST)
딥러닝 및 특징 학습

Mechanisms

임상 예측 모델은 레이블이 지정된 데이터에 맞춰져 예측 변수가 결과와 어떻게 관련되는지 학습한 다음, 판별(결과를 경험하는 사람과 경험하지 않는 사람을 얼마나 잘 구분하는지) 및 보정(예측된 확률이 관찰된 빈도와 얼마나 잘 일치하는지)에 대해 평가됩니다. 모델은 훈련된 데이터에서 낙관적으로 수행되는 경향이 있으므로, 새로운 모집단에 대한 내부 및 특히 외부 검증이 필수적이며, 대상 설정이 개발 설정과 다를 때 데이터셋 이동(dataset shift)으로 인해 배포가 저해될 수 있습니다(Rajkomar, 2019). 딥러닝은 이미지, 신호 또는 텍스트와 같은 원시 입력에서 직접 특징을 학습함으로써 이러한 아이디어를 확장하며, 이는 지각 작업의 성능을 향상시킬 수 있지만 해석 가능성을 복잡하게 만듭니다(Esteva, 2019).

Clinical relevance

예측 모델은 임상 시스템에 내장된 위험 점수, 조기 경고 알림 및 분류 도구에 점점 더 많이 활용되고 있으므로, 이들의 정확성, 보정 및 공정성은 임상의가 받는 지침의 품질에 직접적인 영향을 미칩니다. 이 항목은 이러한 모델이 어떻게 개발되고 평가되는지를 설명합니다. 모델 출력은 임상적 해석과 감독이 필요한 확률적 추정치이며, 본문은 개별 진단 또는 치료 결정의 근거가 될 수 없습니다.

Evidence & guidelines

방법론적 합의는 투명한 개발과 엄격한 검증을 강조합니다. TRIPOD 성명서는 예측 모델 연구에 대한 보고 표준을 설정하여 방법과 성능을 평가할 수 있도록 하며(Collins, 2015), PROBAST는 그러한 연구에서 편향 위험 및 적용 가능성을 판단하기 위한 구조화된 도구를 제공합니다(Wolff, 2019). 의학 분야의 기계 학습에 대한 검토는 외부 검증, 보정, 편향에 대한 주의, 그리고 후향적 성능과 전향적 임상적 이점 사이의 격차를 강조합니다(Rajkomar, 2019; Esteva, 2019).

History

임상 예측은 회귀 기반 위험 점수에 오랜 뿌리를 두고 있지만, 2010년대에는 전자 건강 기록, 영상 및 더 큰 데이터셋에 힘입어 기계 학습 및 딥러닝이 급속도로 성장했습니다. 이와 함께 재현성, 과장된 성능 및 편향에 대한 우려가 높아졌고, 이는 모델 연구를 일관된 방법론적 표준에 맞추기 위한 보고 및 평가 프레임워크(TRIPOD, PROBAST)를 촉발했습니다.

Debates

많은 모델이 개발 연구에서보다 실제 환경에서 성능이 떨어지는 이유는 무엇입니까?: 불충분한 외부 검증, 개발 및 배포 환경 간의 데이터셋 이동, 그리고 낙관적인 보고는 강력한 후향적 성능이 전향적 임상적 이점으로 이어지지 못하는 경우가 많다는 것을 의미하며, 이는 더 엄격한 검증 및 보고 표준을 요구합니다.
알고리즘 편향 및 공정성은 어떻게 다루어야 합니까?: 과거 데이터로 훈련된 모델은 불평등을 내포하고 증폭시킬 수 있으며, 이는 공정성을 측정하는 방법, 그룹 간 성능 차이가 허용되는 시점, 그리고 시간이 지남에 따라 배포된 모델의 편향을 모니터링하는 방법에 대한 논쟁을 불러일으킵니다.

Key figures

Alvin Rajkomar
Gary S. Collins
Karel G. M. Moons
Isaac Kohane

Seminal works

rajkomar-2019
collins-2015
wolff-2019

Frequently asked questions

판별(discrimination)과 보정(calibration)의 차이점은 무엇입니까?: 판별은 모델이 환자를 분류하여 결과를 경험하는 환자가 그렇지 않은 환자보다 더 높은 예측 위험을 갖도록 하는 능력인 반면, 보정은 예측된 확률과 관찰된 빈도 간의 일치도입니다. 모델은 판별을 잘 할 수 있지만 보정이 좋지 않을 수 있으므로 둘 다 중요합니다.
임상 예측 모델에 외부 검증이 중요한 이유는 무엇입니까?: 모델은 종종 구축에 사용된 데이터에서 낙관적으로 수행되는 경향이 있습니다. 독립적인 모집단 및 환경에서 테스트하는 것은 모델이 얼마나 잘 일반화되는지 보여주고, 사례 구성 또는 문서화가 개발 데이터와 다를 때 실패하는 도구를 배포하는 것을 방지하는 데 도움이 됩니다.