¿Cómo puede un modelo aprender algo sin etiquetas?

Los métodos no supervisados explotan la estructura ya presente en los datos, como qué puntos están cerca unos de otros, qué direcciones conllevan la mayor variación o qué factores latentes podrían haber generado las observaciones. Las propias regularidades de los datos proporcionan la señal.

¿Por qué es difícil evaluar el aprendizaje no supervisado?

No existe un objetivo de verdad fundamental con el que comparar, por lo que el éxito se juzga indirectamente, por ejemplo, por lo interpretables que son los clústeres o por lo bien que una representación aprendida ayuda a una tarea supervisada posterior. Diferentes criterios pueden clasificar el mismo resultado de manera diferente.

Aprendizaje no supervisado

El aprendizaje no supervisado descubre la estructura en datos sin etiquetar, encontrando agrupaciones, representaciones de baja dimensión y factores latentes sin salidas objetivo que imitar.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El aprendizaje no supervisado es la inferencia de la estructura a partir de las entradas únicamente, sin valores objetivo asociados; los algoritmos buscan descripciones compactas de los datos, como asignaciones de clústeres, coordenadas de baja dimensión o variables latentes generativas que explican cómo podrían haber surgido los datos observados.

Scope

Esta área abarca el aprendizaje a partir de datos sin etiquetas: agrupamiento en clústeres, reducción de dimensionalidad y aprendizaje de variedades (manifold learning), modelos de variables latentes y de mezcla ajustados por el algoritmo de expectativa-maximización, estimación de densidad, y el aprendizaje autosupervisado y de representación moderno que crea señales de entrenamiento a partir de los propios datos.

Sub-topics

Core questions

¿Qué estructura se puede recuperar de los datos sin ninguna etiqueta?
¿Cómo se definen y descubren las agrupaciones o clústeres naturales?
¿Cómo se pueden resumir los datos de alta dimensión con pocas coordenadas?
¿Cómo explican los modelos de variables latentes las observaciones a través de causas ocultas?

Key theories

Modelos de variables latentes y EM: Muchos modelos no supervisados postulan variables ocultas que generan los datos, y el algoritmo de expectativa-maximización los ajusta alternando entre la inferencia de las variables latentes y la actualización de los parámetros para aumentar la verosimilitud.
Reducción de dimensionalidad: Métodos como el análisis de componentes principales y el aprendizaje de variedades (manifold learning) encuentran representaciones de baja dimensión que preservan la variación más importante, lo que permite la visualización, la compresión y la reducción de ruido.
Estructura de agrupamiento (clustering): El agrupamiento (clustering) divide los datos en grupos de elementos similares, formalizado de diversas maneras a través de la distancia dentro del clúster, mezclas probabilísticas o densidad, sin una definición única del número o la forma correctos de los clústeres.

Clinical relevance

El aprendizaje no supervisado es esencial donde las etiquetas son escasas o están ausentes, apoyando la segmentación de clientes, la detección de anomalías, el análisis exploratorio de datos y el preentrenamiento de representaciones que impulsan los sistemas supervisados y de lenguaje modernos; debido a que no existe un objetivo de verdad fundamental, la evaluación de los resultados no supervisados es en sí misma un problema sutil e importante.

History

El aprendizaje no supervisado tiene sus raíces en el agrupamiento y el análisis factorial de la estadística y en las redes neuronales autoorganizadas. El algoritmo de expectativa-maximización, formalizado en 1977, unificó el ajuste de modelos de variables latentes, y en los últimos años el aprendizaje de representación autosupervisado se ha convertido en un paradigma dominante para el preentrenamiento de grandes modelos con datos sin etiquetar.

Debates

Cómo evaluar los resultados no supervisados: Sin etiquetas no hay una única respuesta correcta, por lo que juzgar los agrupamientos o las representaciones aprendidas se basa en criterios indirectos, el rendimiento de la tarea posterior o la interpretación humana, y diferentes medidas de validez pueden discrepar.

Key figures

Arthur Dempster
Donald Rubin
Geoffrey Hinton
Christopher Bishop

Seminal works

bishop2006
hastie2009
dempster1977

Frequently asked questions

¿Cómo puede un modelo aprender algo sin etiquetas?: Los métodos no supervisados explotan la estructura ya presente en los datos, como qué puntos están cerca unos de otros, qué direcciones conllevan la mayor variación o qué factores latentes podrían haber generado las observaciones. Las propias regularidades de los datos proporcionan la señal.
¿Por qué es difícil evaluar el aprendizaje no supervisado?: No existe un objetivo de verdad fundamental con el que comparar, por lo que el éxito se juzga indirectamente, por ejemplo, por lo interpretables que son los clústeres o por lo bien que una representación aprendida ayuda a una tarea supervisada posterior. Diferentes criterios pueden clasificar el mismo resultado de manera diferente.