ScholarGate
Assistente

Classificação e Análise Discriminante

A classificação e a análise discriminante compreendem os métodos multivariados que atribuem observações a grupos predefinidos usando características medidas e uma amostra de casos rotulados.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

A análise discriminante e a classificação são a construção de regras que atribuem uma observação multivariada a um de vários grupos conhecidos, de modo a minimizar um custo esperado ou erro de classificação incorreta.

Scope

Esta área abrange a classificação supervisionada de observações multivariadas. Inclui o discriminante linear de Fisher e sua interpretação de modelo gaussiano, a análise discriminante quadrática para covariâncias de grupo desiguais, a discriminação logística como um modelo direto de probabilidades de associação de classe e métodos baseados em margem, como máquinas de vetores de suporte. O foco está na construção, geometria e avaliação dos limites de decisão.

Sub-topics

Core questions

  • Como uma observação deve ser atribuída a um de vários grupos conhecidos a partir de suas características medidas?
  • Qual limite de decisão minimiza o custo esperado de classificação incorreta?
  • Quando os limites lineares são adequados e quando são necessários limites quadráticos ou não lineares?
  • Como o desempenho do classificador é estimado sem viés otimista?

Key theories

Classificação Bayes-ótima
Atribuir cada observação ao grupo com a maior probabilidade posterior minimiza o erro esperado de classificação incorreta; métodos discriminantes paramétricos estimam essas probabilidades posteriores sob suposições distribucionais.
Discriminante linear de Fisher
Fisher buscou a combinação linear de características que separa ao máximo as médias dos grupos em relação à dispersão dentro do grupo, produzindo uma direção discriminante que, sob covariâncias gaussianas iguais, coincide com a regra de Bayes.

Clinical relevance

Os métodos de classificação são usados sempre que os casos devem ser classificados em categorias conhecidas a partir de medições multivariadas, incluindo diagnóstico médico, pontuação de crédito, identificação de espécies e mapeamento de cobertura do solo por sensoriamento remoto.

History

O campo começou com o discriminante linear de Fisher de 1936 aplicado a medições taxonômicas. Formulações probabilísticas e gaussianas se seguiram, a discriminação logística forneceu um modelo direto de probabilidades de classe, e o desenvolvimento de métodos baseados em margem e kernel no final do século XX estendeu a classificação para configurações de alta dimensão e não lineares.

Debates

Classificação generativa versus discriminativa
Métodos generativos, como a análise discriminante, modelam a distribuição de características dentro de cada classe, enquanto métodos discriminativos, como a regressão logística e as máquinas de vetores de suporte, modelam diretamente o limite ou a probabilidade de classe; seus méritos relativos dependem do tamanho da amostra e de quão bem as suposições distribucionais se mantêm.

Key figures

  • Ronald A. Fisher
  • Vladimir Vapnik

Related topics

Seminal works

  • fisher1936
  • hastie2009
  • johnson2007

Frequently asked questions

Como a classificação difere do agrupamento (clustering)?
A classificação é supervisionada: os grupos são conhecidos antecipadamente e uma amostra de treinamento rotulada está disponível. O agrupamento (clustering) é não supervisionado e descobre agrupamentos sem rótulos predefinidos.
Por que estimar o erro em dados de validação (held-out data)?
O erro medido nos mesmos dados usados para ajustar um classificador é otimisticamente enviesado, portanto, são necessárias estimativas fora da amostra de validação cruzada ou de um conjunto de teste para avaliar o verdadeiro desempenho preditivo.

Methods for this concept

Related concepts