¿Por qué utilizar el algoritmo de expectativa-maximización en lugar de la maximización directa?

Cuando los datos están incompletos o un modelo tiene variables latentes, la verosimilitud de los datos observados puede ser difícil de maximizar directamente. El algoritmo trabaja con la verosimilitud de datos completos, que es más simple, y converge de manera fiable con una no disminución garantizada en cada paso.

¿El algoritmo siempre encuentra el máximo global?

No. Converge a un punto estacionario que depende de los valores iniciales, el cual puede ser un máximo local o un punto de silla. Ejecutarlo desde varias inicializaciones es la salvaguarda habitual.

Algoritmo EM

El algoritmo de expectativa-maximización encuentra estimaciones de máxima verosimilitud en modelos con datos faltantes o variables latentes, alternando entre la imputación de la información faltante y la maximización de la log-verosimilitud esperada resultante.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El algoritmo de expectativa-maximización es un procedimiento iterativo que maximiza una verosimilitud con datos incompletos, formando repetidamente la log-verosimilitud esperada de los datos completos dados los parámetros actuales (el paso E) y maximizándola para actualizar los parámetros (el paso M).

Scope

Este tema cubre el paso E y el paso M que definen el algoritmo, la propiedad de ascenso monótono que garantiza que la verosimilitud nunca disminuye, su comportamiento y tasa de convergencia, aplicaciones canónicas a modelos de mezcla y datos faltantes, y extensiones como las variantes EM generalizadas y de Monte Carlo. Se señala su relación con otros métodos de ascenso.

Core questions

¿Cómo los pasos E y M aumentan conjuntamente la verosimilitud de los datos observados?
¿Por qué el algoritmo garantiza un aumento monótono en la verosimilitud?
¿Cómo se aplica el algoritmo a modelos de mezcla y problemas de datos faltantes?
¿Qué rige su tasa de convergencia y cómo las variantes aceleradas abordan la convergencia lenta?

Key concepts

Verosimilitud de datos completos
Paso E
Paso M
Variables latentes
Convergencia monótona
Máximos locales

Key theories

Alternancia de los pasos E y M: El paso E calcula la expectativa de la log-verosimilitud de los datos completos bajo los parámetros actuales, y el paso M maximiza esta expectativa; la iteración impulsa los parámetros hacia un punto estacionario de la verosimilitud de los datos observados.
Propiedad de ascenso monótono: Cada iteración no disminuye la verosimilitud de los datos observados, lo que confiere estabilidad al algoritmo, aunque puede converger lentamente y solo a un máximo local dependiendo de la inicialización.

Clinical relevance

El algoritmo de expectativa-maximización es el motor estándar para ajustar modelos de mezcla finita, modelos ocultos de Markov, modelos de factores y de clases latentes, y para manejar datos faltantes, lo que lo hace fundamental en estadística, aprendizaje automático, genética y procesamiento de señales.

History

Dempster, Laird y Rubin unificaron muchos algoritmos de casos especiales anteriores en el marco general de expectativa-maximización en 1977; trabajos posteriores desarrollaron la teoría de la convergencia, esquemas de aceleración y variantes de Monte Carlo y generalizadas para pasos intratables.

Key figures

Arthur Dempster
Nan Laird
Donald Rubin
Geoffrey McLachlan

Seminal works

dempster1977
mclachlan2008

Frequently asked questions

¿Por qué utilizar el algoritmo de expectativa-maximización en lugar de la maximización directa?: Cuando los datos están incompletos o un modelo tiene variables latentes, la verosimilitud de los datos observados puede ser difícil de maximizar directamente. El algoritmo trabaja con la verosimilitud de datos completos, que es más simple, y converge de manera fiable con una no disminución garantizada en cada paso.
¿El algoritmo siempre encuentra el máximo global?: No. Converge a un punto estacionario que depende de los valores iniciales, el cual puede ser un máximo local o un punto de silla. Ejecutarlo desde varias inicializaciones es la salvaguarda habitual.