¿Qué es la perplejidad?

La perplejidad mide cuán sorprendido está un modelo de lenguaje por un texto no visto; una perplejidad más baja significa que el modelo asigna una probabilidad más alta a las palabras observadas, lo que indica un mejor ajuste.

¿Por qué el modelado del lenguaje necesita suavizado?

Cualquier corpus finito omite muchas secuencias de palabras válidas, por lo que un modelo ingenuo les asignaría probabilidad cero. El suavizado redistribuye una pequeña masa de probabilidad a eventos no vistos para que el modelo pueda manejar texto novedoso.

Modelado del lenguaje

Asignar probabilidades a secuencias de palabras, la tarea fundamental que permite a los sistemas predecir, puntuar y generar texto, desde los contadores clásicos de n-gramas hasta los modelos de lenguaje neuronales.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

Un modelo de lenguaje es una distribución de probabilidad sobre secuencias de palabras o tokens, típicamente definida al predecir cada token a partir de su contexto precedente.

Scope

Cubre la tarea de modelado del lenguaje en sí: estimar la probabilidad de una palabra dado su contexto, los modelos de n-gramas y sus técnicas de suavizado, la evaluación por perplejidad y la transición a representaciones neuronales y distribuidas. Sitúa a los grandes modelos de lenguaje como la encarnación moderna de la misma tarea. Las arquitecturas neuronales detalladas se tratan en el área de PNL estadística y neuronal.

Core questions

¿Cómo se puede descomponer la probabilidad de una oración en probabilidades condicionales de palabras?
¿Cómo maneja el suavizado las secuencias de palabras nunca vistas en el entrenamiento?
¿Cómo se utiliza la perplejidad para evaluar y comparar modelos de lenguaje?
¿Qué cambiaron los modelos de lenguaje neuronales en relación con los modelos de n-gramas?

Key concepts

n-grama
supuesto de Markov
suavizado
perplejidad
retroceso e interpolación
representaciones de palabras distribuidas
entropía cruzada
predicción del siguiente token

Key theories

Modelado de Markov de N-gramas: Aproximar la probabilidad de una palabra condicionando solo las n-1 palabras anteriores, convirtiendo el modelado del lenguaje en un problema manejable de conteo y suavizado.
Modelo de lenguaje probabilístico neuronal: Reemplazar los conteos dispersos de n-gramas con una red neuronal que aprende representaciones de palabras distribuidas, mitigando la maldición de la dimensionalidad y permitiendo la generalización a contextos no vistos.

History

La teoría de la información de Shannon enmarcó el lenguaje como una fuente estocástica predecible, y la comunidad de reconocimiento de voz de IBM hizo que el modelado de n-gramas fuera central en la década de 1980. Bengio y sus colegas introdujeron los modelos de lenguaje probabilísticos neuronales en 2003, sembrando el enfoque de representación distribuida que, escalado, produjo los grandes modelos de lenguaje actuales.

Debates

Conteo versus representaciones aprendidas: Si el lenguaje se modela mejor mediante conteos suavizados sobre secuencias discretas o mediante redes neuronales que aprenden representaciones continuas; los métodos neuronales ahora dominan, pero heredan el mismo objetivo probabilístico.

Key figures

Claude Shannon
Frederick Jelinek
Yoshua Bengio
Daniel Jurafsky

Seminal works

shannon1948
bengio2003
jurafsky2025

Frequently asked questions

¿Qué es la perplejidad?: La perplejidad mide cuán sorprendido está un modelo de lenguaje por un texto no visto; una perplejidad más baja significa que el modelo asigna una probabilidad más alta a las palabras observadas, lo que indica un mejor ajuste.
¿Por qué el modelado del lenguaje necesita suavizado?: Cualquier corpus finito omite muchas secuencias de palabras válidas, por lo que un modelo ingenuo les asignaría probabilidad cero. El suavizado redistribuye una pequeña masa de probabilidad a eventos no vistos para que el modelo pueda manejar texto novedoso.