ScholarGate
Asistente

Modelos de Lenguaje Neurales y "Word Embeddings"

Aprendizaje de representaciones vectoriales densas de palabras y contextos a partir de texto sin procesar —desde los "embeddings" de word2vec hasta representaciones contextuales como BERT— que codifican el significado como geometría.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

Un "word embedding" es un vector denso de valores reales que representa el significado de una palabra, aprendido de modo que la similitud distribucional se refleja en la proximidad del espacio vectorial; los "embeddings" contextuales extienden esto a representaciones que dependen del texto circundante.

Scope

Cubre las representaciones distribuidas y neurales del lenguaje: la hipótesis distribucional, los "word embeddings" estáticos como word2vec y GloVe, los modelos de lenguaje neurales y los "embeddings" contextuales de transformadores preentrenados como BERT. Aborda cómo se entrenan, evalúan y transfieren las representaciones a tareas posteriores. Los detalles de la arquitectura del transformador y la generación se tratan en un tema relacionado.

Core questions

  • ¿Qué es la hipótesis distribucional y cómo la operacionalizan los "embeddings"?
  • ¿Cómo aprende word2vec los vectores de palabras a partir de la coocurrencia?
  • ¿En qué se diferencian los "embeddings" contextuales de los estáticos?
  • ¿Por qué el preentrenamiento y el aprendizaje por transferencia transformaron el PNL?

Key concepts

  • hipótesis distribucional
  • word embedding
  • word2vec
  • skip-gram
  • contextual embedding
  • preentrenamiento y ajuste fino
  • aprendizaje por transferencia
  • modelado de lenguaje enmascarado

Key theories

Hipótesis distribucional
La idea de que las palabras que aparecen en contextos similares tienen significados similares, lo que subyace a todos los métodos de "embedding" al derivar el significado de las estadísticas de coocurrencia.
Preentrenamiento contextual
Preentrenamiento de modelos bidireccionales profundos en grandes textos no etiquetados, como en BERT, para producir representaciones sensibles al contexto que se transfieren a muchas tareas posteriores con poco ajuste fino.

History

La hipótesis distribucional de Harris fue operacionalizada primero por modelos de espacio vectorial basados en recuentos, luego por el modelo de lenguaje neural de Bengio (2003) y el eficiente word2vec de Mikolov (2013). La llegada en 2018-2019 de modelos contextuales como ELMo y BERT convirtió el preentrenamiento y el ajuste fino en el paradigma dominante.

Debates

¿Qué codifican realmente los "embeddings"?
Si las representaciones aprendidas capturan una estructura semántica y sintáctica genuina o simplemente regularidades de coocurrencia y sesgos presentes en los datos de entrenamiento, una cuestión central para la interpretabilidad.

Key figures

  • Yoshua Bengio
  • Tomas Mikolov
  • Jacob Devlin
  • Zellig Harris

Related topics

Seminal works

  • bengio2003
  • mikolov2013
  • devlin2019

Frequently asked questions

¿Cuál es la diferencia entre los "embeddings" estáticos y contextuales?
Un "embedding" estático asigna a una palabra un vector fijo independientemente del contexto, por lo que 'banco' tiene una única representación. Un "embedding" contextual produce un vector diferente para cada ocurrencia, distinguiendo un banco de río de un banco financiero.

Methods for this concept

Related concepts