정확도가 왜 오해의 소지가 있을 수 있나요?

한 클래스가 다른 클래스보다 훨씬 흔한 경우, 항상 다수 클래스를 예측하는 모델은 높은 정확도를 가질 수 있지만 희귀 클래스에는 쓸모가 없을 수 있습니다. 정밀도, 재현율, 수신자 조작 특성 곡선 아래 면적과 같은 지표는 이러한 종류의 실패를 드러냅니다.

정밀도와 재현율의 차이점은 무엇인가요?

정밀도는 예측된 양성 중 실제로 양성인 비율로, 양성 예측이 얼마나 신뢰할 수 있는지를 측정합니다. 재현율은 모델이 찾아낸 실제 양성의 비율로, 실제 사례를 얼마나 많이 포착하는지를 측정합니다. 하나를 개선하면 종종 다른 하나가 희생됩니다.

성능 지표

성능 지표는 모델이 얼마나 잘 예측하는지 정량화하며, 다양한 측정 기준은 정확도의 여러 측면과 오류의 다양한 비용을 포착합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

성능 지표는 모델의 예측이 평가 데이터에서 실제 목표와 얼마나 일치하는지를 수치적으로 요약한 것입니다. 적절한 지표는 작업 유형, 클래스 균형, 그리고 다양한 종류의 오류에 대한 상대적 비용에 따라 달라집니다.

Scope

이 주제는 모델 성능을 판단하는 데 사용되는 측정 기준을 다룹니다. 분류의 경우 정확도, 정밀도, 재현율, F-측정, 그리고 수신자 조작 특성 곡선과 그 면적을 포함합니다. 회귀의 경우 평균 제곱 오차 및 절대 오차, 결정 계수를 다룹니다. 또한 로그 손실과 같은 확률적 점수 규칙도 포함합니다. 클래스 불균형 및 비대칭 오류 비용 하에서 지표 선택에 대해서도 다룹니다.

Core questions

어떤 지표가 주어진 작업의 진정한 목표를 반영하는가?
정밀도와 재현율은 어떻게 상충되며, 각각은 언제 중요한가?
불균형 데이터에서 정확도가 왜 오해를 불러일으킬 수 있는가?
확률적 예측은 어떻게 점수가 매겨지는가?

Key theories

혼동 행렬 지표: 참 양성, 거짓 양성, 참 음성, 거짓 음성의 수로부터 정확도, 정밀도, 재현율, F-측정이 도출되며, 이는 단일 정확도 수치가 숨길 수 있는 상충 관계를 드러냅니다.
임계값 독립적 평가: 수신자 조작 특성(ROC) 곡선과 그 면적은 모든 결정 임계값에 걸쳐 분류기의 성능을 요약하며, 작동 지점이 미리 고정되지 않은 경우에 유용합니다.
적절한 점수 규칙: 로그 손실과 같은 점수 규칙은 잘 보정된 확률 추정치를 보상하며, 실제 확률을 보고함으로써 최소화되어 정직한 확률적 예측을 장려합니다.

Clinical relevance

올바른 성능 지표를 선택하는 것은 매우 중요합니다. 잘못된 측정 기준으로 최적화되거나 판단된 모델은 실제로 중요한 부분에서 제대로 작동하지 않을 수 있기 때문입니다. 사기 또는 질병 탐지와 같이 불균형하거나 비용에 민감한 환경에서는 순진한 정확도가 특히 오해의 소지가 있으며, 지표는 오류의 실제 결과를 반영해야 합니다.

History

많은 지표는 기계 학습 외부에서 유래했습니다. 정밀도와 재현율은 정보 검색에서, 수신자 조작 특성(ROC)은 신호 탐지 이론에서 비롯되었습니다. 기계 학습이 불균형하고 중요한 문제에 적용되면서, 신중한 지표 선택과 여러 보완적인 지표 보고가 표준 방법론이 되었습니다.

Key figures

Trevor Hastie
Tom Fawcett
Christopher Bishop

Seminal works

hastie2009
bishop2006
murphy2012

Frequently asked questions

정확도가 왜 오해의 소지가 있을 수 있나요?: 한 클래스가 다른 클래스보다 훨씬 흔한 경우, 항상 다수 클래스를 예측하는 모델은 높은 정확도를 가질 수 있지만 희귀 클래스에는 쓸모가 없을 수 있습니다. 정밀도, 재현율, 수신자 조작 특성 곡선 아래 면적과 같은 지표는 이러한 종류의 실패를 드러냅니다.
정밀도와 재현율의 차이점은 무엇인가요?: 정밀도는 예측된 양성 중 실제로 양성인 비율로, 양성 예측이 얼마나 신뢰할 수 있는지를 측정합니다. 재현율은 모델이 찾아낸 실제 양성의 비율로, 실제 사례를 얼마나 많이 포착하는지를 측정합니다. 하나를 개선하면 종종 다른 하나가 희생됩니다.