Modelado del lenguaje
Asignar probabilidades a secuencias de palabras, la tarea fundamental que permite a los sistemas predecir, puntuar y generar texto, desde los contadores clásicos de n-gramas hasta los modelos de lenguaje neuronales.
Definition
Un modelo de lenguaje es una distribución de probabilidad sobre secuencias de palabras o tokens, típicamente definida al predecir cada token a partir de su contexto precedente.
Scope
Cubre la tarea de modelado del lenguaje en sí: estimar la probabilidad de una palabra dado su contexto, los modelos de n-gramas y sus técnicas de suavizado, la evaluación por perplejidad y la transición a representaciones neuronales y distribuidas. Sitúa a los grandes modelos de lenguaje como la encarnación moderna de la misma tarea. Las arquitecturas neuronales detalladas se tratan en el área de PNL estadística y neuronal.
Core questions
- ¿Cómo se puede descomponer la probabilidad de una oración en probabilidades condicionales de palabras?
- ¿Cómo maneja el suavizado las secuencias de palabras nunca vistas en el entrenamiento?
- ¿Cómo se utiliza la perplejidad para evaluar y comparar modelos de lenguaje?
- ¿Qué cambiaron los modelos de lenguaje neuronales en relación con los modelos de n-gramas?
Key concepts
- n-grama
- supuesto de Markov
- suavizado
- perplejidad
- retroceso e interpolación
- representaciones de palabras distribuidas
- entropía cruzada
- predicción del siguiente token
Key theories
- Modelado de Markov de N-gramas
- Aproximar la probabilidad de una palabra condicionando solo las n-1 palabras anteriores, convirtiendo el modelado del lenguaje en un problema manejable de conteo y suavizado.
- Modelo de lenguaje probabilístico neuronal
- Reemplazar los conteos dispersos de n-gramas con una red neuronal que aprende representaciones de palabras distribuidas, mitigando la maldición de la dimensionalidad y permitiendo la generalización a contextos no vistos.
History
La teoría de la información de Shannon enmarcó el lenguaje como una fuente estocástica predecible, y la comunidad de reconocimiento de voz de IBM hizo que el modelado de n-gramas fuera central en la década de 1980. Bengio y sus colegas introdujeron los modelos de lenguaje probabilísticos neuronales en 2003, sembrando el enfoque de representación distribuida que, escalado, produjo los grandes modelos de lenguaje actuales.
Debates
- Conteo versus representaciones aprendidas
- Si el lenguaje se modela mejor mediante conteos suavizados sobre secuencias discretas o mediante redes neuronales que aprenden representaciones continuas; los métodos neuronales ahora dominan, pero heredan el mismo objetivo probabilístico.
Key figures
- Claude Shannon
- Frederick Jelinek
- Yoshua Bengio
- Daniel Jurafsky
Related topics
Seminal works
- shannon1948
- bengio2003
- jurafsky2025
Frequently asked questions
- ¿Qué es la perplejidad?
- La perplejidad mide cuán sorprendido está un modelo de lenguaje por un texto no visto; una perplejidad más baja significa que el modelo asigna una probabilidad más alta a las palabras observadas, lo que indica un mejor ajuste.
- ¿Por qué el modelado del lenguaje necesita suavizado?
- Cualquier corpus finito omite muchas secuencias de palabras válidas, por lo que un modelo ingenuo les asignaría probabilidad cero. El suavizado redistribuye una pequeña masa de probabilidad a eventos no vistos para que el modelo pueda manejar texto novedoso.