¿Cuál es la diferencia entre los "embeddings" estáticos y contextuales?

Un "embedding" estático asigna a una palabra un vector fijo independientemente del contexto, por lo que 'banco' tiene una única representación. Un "embedding" contextual produce un vector diferente para cada ocurrencia, distinguiendo un banco de río de un banco financiero.

Modelos de Lenguaje Neurales y "Word Embeddings"

Aprendizaje de representaciones vectoriales densas de palabras y contextos a partir de texto sin procesar —desde los "embeddings" de word2vec hasta representaciones contextuales como BERT— que codifican el significado como geometría.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

Un "word embedding" es un vector denso de valores reales que representa el significado de una palabra, aprendido de modo que la similitud distribucional se refleja en la proximidad del espacio vectorial; los "embeddings" contextuales extienden esto a representaciones que dependen del texto circundante.

Scope

Cubre las representaciones distribuidas y neurales del lenguaje: la hipótesis distribucional, los "word embeddings" estáticos como word2vec y GloVe, los modelos de lenguaje neurales y los "embeddings" contextuales de transformadores preentrenados como BERT. Aborda cómo se entrenan, evalúan y transfieren las representaciones a tareas posteriores. Los detalles de la arquitectura del transformador y la generación se tratan en un tema relacionado.

Core questions

¿Qué es la hipótesis distribucional y cómo la operacionalizan los "embeddings"?
¿Cómo aprende word2vec los vectores de palabras a partir de la coocurrencia?
¿En qué se diferencian los "embeddings" contextuales de los estáticos?
¿Por qué el preentrenamiento y el aprendizaje por transferencia transformaron el PNL?

Key concepts

hipótesis distribucional
word embedding
word2vec
skip-gram
contextual embedding
preentrenamiento y ajuste fino
aprendizaje por transferencia
modelado de lenguaje enmascarado

Key theories

Hipótesis distribucional: La idea de que las palabras que aparecen en contextos similares tienen significados similares, lo que subyace a todos los métodos de "embedding" al derivar el significado de las estadísticas de coocurrencia.
Preentrenamiento contextual: Preentrenamiento de modelos bidireccionales profundos en grandes textos no etiquetados, como en BERT, para producir representaciones sensibles al contexto que se transfieren a muchas tareas posteriores con poco ajuste fino.

History

La hipótesis distribucional de Harris fue operacionalizada primero por modelos de espacio vectorial basados en recuentos, luego por el modelo de lenguaje neural de Bengio (2003) y el eficiente word2vec de Mikolov (2013). La llegada en 2018-2019 de modelos contextuales como ELMo y BERT convirtió el preentrenamiento y el ajuste fino en el paradigma dominante.

Debates

¿Qué codifican realmente los "embeddings"?: Si las representaciones aprendidas capturan una estructura semántica y sintáctica genuina o simplemente regularidades de coocurrencia y sesgos presentes en los datos de entrenamiento, una cuestión central para la interpretabilidad.

Key figures

Yoshua Bengio
Tomas Mikolov
Jacob Devlin
Zellig Harris

Seminal works

bengio2003
mikolov2013
devlin2019

Frequently asked questions

¿Cuál es la diferencia entre los "embeddings" estáticos y contextuales?: Un "embedding" estático asigna a una palabra un vector fijo independientemente del contexto, por lo que 'banco' tiene una única representación. Un "embedding" contextual produce un vector diferente para cada ocurrencia, distinguiendo un banco de río de un banco financiero.