Classificação e Análise Discriminante
A classificação e a análise discriminante compreendem os métodos multivariados que atribuem observações a grupos predefinidos usando características medidas e uma amostra de casos rotulados.
Definition
A análise discriminante e a classificação são a construção de regras que atribuem uma observação multivariada a um de vários grupos conhecidos, de modo a minimizar um custo esperado ou erro de classificação incorreta.
Scope
Esta área abrange a classificação supervisionada de observações multivariadas. Inclui o discriminante linear de Fisher e sua interpretação de modelo gaussiano, a análise discriminante quadrática para covariâncias de grupo desiguais, a discriminação logística como um modelo direto de probabilidades de associação de classe e métodos baseados em margem, como máquinas de vetores de suporte. O foco está na construção, geometria e avaliação dos limites de decisão.
Sub-topics
Core questions
- Como uma observação deve ser atribuída a um de vários grupos conhecidos a partir de suas características medidas?
- Qual limite de decisão minimiza o custo esperado de classificação incorreta?
- Quando os limites lineares são adequados e quando são necessários limites quadráticos ou não lineares?
- Como o desempenho do classificador é estimado sem viés otimista?
Key theories
- Classificação Bayes-ótima
- Atribuir cada observação ao grupo com a maior probabilidade posterior minimiza o erro esperado de classificação incorreta; métodos discriminantes paramétricos estimam essas probabilidades posteriores sob suposições distribucionais.
- Discriminante linear de Fisher
- Fisher buscou a combinação linear de características que separa ao máximo as médias dos grupos em relação à dispersão dentro do grupo, produzindo uma direção discriminante que, sob covariâncias gaussianas iguais, coincide com a regra de Bayes.
Clinical relevance
Os métodos de classificação são usados sempre que os casos devem ser classificados em categorias conhecidas a partir de medições multivariadas, incluindo diagnóstico médico, pontuação de crédito, identificação de espécies e mapeamento de cobertura do solo por sensoriamento remoto.
History
O campo começou com o discriminante linear de Fisher de 1936 aplicado a medições taxonômicas. Formulações probabilísticas e gaussianas se seguiram, a discriminação logística forneceu um modelo direto de probabilidades de classe, e o desenvolvimento de métodos baseados em margem e kernel no final do século XX estendeu a classificação para configurações de alta dimensão e não lineares.
Debates
- Classificação generativa versus discriminativa
- Métodos generativos, como a análise discriminante, modelam a distribuição de características dentro de cada classe, enquanto métodos discriminativos, como a regressão logística e as máquinas de vetores de suporte, modelam diretamente o limite ou a probabilidade de classe; seus méritos relativos dependem do tamanho da amostra e de quão bem as suposições distribucionais se mantêm.
Key figures
- Ronald A. Fisher
- Vladimir Vapnik
Related topics
Seminal works
- fisher1936
- hastie2009
- johnson2007
Frequently asked questions
- Como a classificação difere do agrupamento (clustering)?
- A classificação é supervisionada: os grupos são conhecidos antecipadamente e uma amostra de treinamento rotulada está disponível. O agrupamento (clustering) é não supervisionado e descobre agrupamentos sem rótulos predefinidos.
- Por que estimar o erro em dados de validação (held-out data)?
- O erro medido nos mesmos dados usados para ajustar um classificador é otimisticamente enviesado, portanto, são necessárias estimativas fora da amostra de validação cruzada ou de um conjunto de teste para avaliar o verdadeiro desempenho preditivo.