ScholarGate
어시스턴트

분류 및 판별 분석

분류 및 판별 분석은 측정된 특징과 레이블이 지정된 사례 표본을 사용하여 관측치를 미리 정의된 그룹에 할당하는 다변량 방법으로 구성됩니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

판별 분석 및 분류는 다변량 관측치를 여러 알려진 그룹 중 하나에 할당하는 규칙을 구성하여 오분류의 예상 비용 또는 오류를 최소화하는 것입니다.

Scope

이 영역은 다변량 관측치의 지도 분류를 다룹니다. 여기에는 피셔의 선형 판별 분석과 그 가우시안 모델 해석, 불균등한 그룹 공분산을 위한 이차 판별 분석, 클래스 멤버십 확률의 직접 모델로서의 로지스틱 판별, 그리고 서포트 벡터 머신과 같은 마진 기반 방법이 포함됩니다. 의사결정 경계의 구성, 기하학 및 평가에 중점을 둡니다.

Sub-topics

Core questions

  • 측정된 특징으로부터 관측치를 여러 알려진 그룹 중 하나에 어떻게 할당해야 하는가?
  • 어떤 의사결정 경계가 예상되는 오분류 비용을 최소화하는가?
  • 선형 경계는 언제 적절하며, 이차 또는 비선형 경계는 언제 필요한가?
  • 낙관적 편향 없이 분류기 성능은 어떻게 추정되는가?

Key theories

베이즈 최적 분류
각 관측치를 가장 높은 사후 확률을 가진 그룹에 할당하는 것은 예상 오분류 오류를 최소화합니다. 모수적 판별 방법은 분포 가정 하에서 이러한 사후 확률을 추정합니다.
피셔의 선형 판별 분석
피셔는 그룹 내 확산에 비해 그룹 평균을 최대로 분리하는 특징의 선형 조합을 찾았으며, 이는 동일한 가우시안 공분산 하에서 베이즈 규칙과 일치하는 판별 방향을 제공합니다.

Clinical relevance

분류 방법은 의료 진단, 신용 평가, 종 식별, 원격 감지 토지 피복 매핑을 포함하여 다변량 측정에서 사례를 알려진 범주로 분류해야 하는 모든 곳에서 사용됩니다.

History

이 분야는 분류학적 측정에 적용된 피셔의 1936년 선형 판별 분석으로 시작되었습니다. 확률론적 및 가우시안 공식이 뒤따랐고, 로지스틱 판별은 클래스 확률의 직접 모델을 제공했으며, 20세기 후반의 마진 기반 및 커널 방법 개발은 분류를 고차원 및 비선형 설정으로 확장했습니다.

Debates

생성적 분류 대 판별적 분류
판별 분석과 같은 생성적 방법은 각 클래스 내의 특징 분포를 모델링하는 반면, 로지스틱 회귀 및 서포트 벡터 머신과 같은 판별적 방법은 경계 또는 클래스 확률을 직접 모델링합니다. 이들의 상대적 장점은 표본 크기와 분포 가정이 얼마나 잘 유지되는지에 따라 달라집니다.

Key figures

  • Ronald A. Fisher
  • Vladimir Vapnik

Related topics

Seminal works

  • fisher1936
  • hastie2009
  • johnson2007

Frequently asked questions

분류는 군집화와 어떻게 다른가요?
분류는 지도 학습입니다. 그룹은 미리 알려져 있으며 레이블이 지정된 훈련 표본을 사용할 수 있습니다. 군집화는 비지도 학습이며 미리 정의된 레이블 없이 그룹화를 발견합니다.
홀드아웃 데이터에서 오류를 추정하는 이유는 무엇인가요?
분류기를 적합시키는 데 사용된 동일한 데이터에서 측정된 오류는 낙관적으로 편향되어 있으므로, 진정한 예측 성능을 평가하기 위해서는 교차 검증 또는 테스트 세트에서 얻은 샘플 외 추정치가 필요합니다.

Methods for this concept

Related concepts