Comment un modèle peut-il apprendre quoi que ce soit sans étiquettes ?

Les méthodes non supervisées exploitent la structure déjà présente dans les données, telles que les points qui sont proches les uns des autres, les directions qui portent le plus de variation, ou les facteurs latents qui auraient pu générer les observations. Les régularités propres aux données fournissent le signal.

Pourquoi l'apprentissage non supervisé est-il difficile à évaluer ?

Il n'y a pas de cible de vérité terrain à laquelle se comparer, donc le succès est jugé indirectement, par exemple par l'interprétabilité des clusters ou par la manière dont une représentation apprise aide une tâche supervisée ultérieure. Différents critères peuvent classer le même résultat différemment.

Apprentissage non supervisé

L'apprentissage non supervisé découvre des structures dans les données non étiquetées, en identifiant des regroupements, des représentations de faible dimension et des facteurs latents sans cibles à imiter.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'apprentissage non supervisé est l'inférence de structures à partir des seules entrées, sans valeurs cibles associées ; les algorithmes recherchent des descriptions compactes des données, telles que des affectations de clusters, des coordonnées de faible dimension, ou des variables latentes génératives qui expliquent comment les données observées auraient pu être générées.

Scope

Ce domaine couvre l'apprentissage à partir de données sans étiquettes : le regroupement en clusters, la réduction de dimensionnalité et l'apprentissage de variétés (manifold learning), les modèles à variables latentes et les modèles de mélange ajustés par l'algorithme d'espérance-maximisation, l'estimation de densité, ainsi que l'apprentissage auto-supervisé et l'apprentissage de représentations modernes qui génèrent des signaux d'entraînement à partir des données elles-mêmes.

Sub-topics

Core questions

Quelle structure peut être récupérée à partir de données sans aucune étiquette ?
Comment les regroupements naturels ou les clusters sont-ils définis et découverts ?
Comment les données de haute dimension peuvent-elles être résumées par peu de coordonnées ?
Comment les modèles à variables latentes expliquent-ils les observations par des causes cachées ?

Key theories

Modèles à variables latentes et EM: De nombreux modèles non supervisés postulent des variables cachées qui génèrent les données, et l'algorithme d'espérance-maximisation les ajuste en alternant l'inférence des variables latentes et la mise à jour des paramètres pour augmenter la vraisemblance.
Réduction de dimensionnalité: Des méthodes telles que l'analyse en composantes principales et l'apprentissage de variétés (manifold learning) trouvent des représentations de faible dimension qui préservent la variation la plus importante, permettant la visualisation, la compression et la réduction du bruit.
Structure de clustering: Le clustering partitionne les données en groupes d'éléments similaires, formalisé de diverses manières par la distance intra-cluster, les mélanges probabilistes ou la densité, sans définition unique du nombre ou de la forme appropriés des clusters.

Clinical relevance

L'apprentissage non supervisé est essentiel là où les étiquettes sont rares ou absentes, soutenant la segmentation client, la détection d'anomalies, l'analyse exploratoire de données et le pré-entraînement de représentations qui alimentent les systèmes supervisés et linguistiques modernes ; parce qu'il n'y a pas de cible de vérité terrain, l'évaluation des résultats non supervisés est en soi un problème subtil et important.

History

L'apprentissage non supervisé trouve ses racines dans le clustering et l'analyse factorielle en statistique, ainsi que dans les réseaux de neurones auto-organisateurs. L'algorithme d'espérance-maximisation, formalisé en 1977, a unifié l'ajustement des modèles à variables latentes, et ces dernières années, l'apprentissage de représentations auto-supervisé est devenu un paradigme dominant pour le pré-entraînement de grands modèles sur des données non étiquetées.

Debates

Comment évaluer les résultats non supervisés: Sans étiquettes, il n'y a pas de réponse unique correcte, donc l'évaluation des clusterings ou des représentations apprises repose sur des critères indirects, la performance des tâches en aval, ou l'interprétation humaine, et différentes mesures de validité peuvent être en désaccord.

Key figures

Arthur Dempster
Donald Rubin
Geoffrey Hinton
Christopher Bishop

Seminal works

bishop2006
hastie2009
dempster1977

Frequently asked questions

Comment un modèle peut-il apprendre quoi que ce soit sans étiquettes ?: Les méthodes non supervisées exploitent la structure déjà présente dans les données, telles que les points qui sont proches les uns des autres, les directions qui portent le plus de variation, ou les facteurs latents qui auraient pu générer les observations. Les régularités propres aux données fournissent le signal.
Pourquoi l'apprentissage non supervisé est-il difficile à évaluer ?: Il n'y a pas de cible de vérité terrain à laquelle se comparer, donc le succès est jugé indirectement, par exemple par l'interprétabilité des clusters ou par la manière dont une représentation apprise aide une tâche supervisée ultérieure. Différents critères peuvent classer le même résultat différemment.