¿Cuál es la diferencia entre un parámetro y un hiperparámetro?

Los parámetros, como los pesos de un modelo, se aprenden de los datos de entrenamiento. Los hiperparámetros, como la tasa de aprendizaje o la fuerza de regularización, se establecen antes del entrenamiento y controlan cómo procede el aprendizaje; se eligen buscando entre valores candidatos y evaluando en datos de validación.

¿Por qué la búsqueda aleatoria suele ser mejor que la búsqueda en cuadrícula?

Cuando solo unos pocos hiperparámetros afectan fuertemente el rendimiento, la búsqueda en cuadrícula desperdicia muchos ensayos variando los que no son importantes. El muestreo aleatorio explora las dimensiones importantes de manera más exhaustiva para el mismo número de ensayos, por lo que tiende a encontrar buenas configuraciones más rápidamente.

Optimización de hiperparámetros

La optimización de hiperparámetros busca las configuraciones de un algoritmo de aprendizaje que producen la mejor generalización, ya que estas no se aprenden directamente de los datos.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La optimización de hiperparámetros es el proceso de seleccionar los valores de los parámetros de configuración de un modelo, aquellos establecidos antes del entrenamiento en lugar de aprenderse de los datos, evaluando las configuraciones candidatas en datos de validación retenidos y eligiendo la configuración que mejor generaliza.

Scope

Este tema cubre métodos para ajustar las configuraciones que rigen un algoritmo de aprendizaje, como la tasa de aprendizaje, la fuerza de regularización y las opciones de arquitectura: búsqueda en cuadrícula, búsqueda aleatoria, optimización bayesiana con modelos sustitutos, y enfoques de reducción sucesiva (successive-halving) y basados en bandidos. Aborda por qué los hiperparámetros deben elegirse en datos de validación y cómo se gestiona el costo de la búsqueda.

Core questions

¿Qué distingue a los hiperparámetros de los parámetros del modelo?
¿Cómo difieren la búsqueda en cuadrícula y la búsqueda aleatoria en eficiencia?
¿Cómo utiliza la optimización bayesiana las evaluaciones pasadas para guiar la búsqueda?
¿Por qué los hiperparámetros deben ajustarse en datos de validación en lugar de datos de prueba?

Key theories

Búsqueda en cuadrícula y aleatoria: La búsqueda en cuadrícula evalúa todas las combinaciones en una cuadrícula predefinida, mientras que la búsqueda aleatoria muestrea configuraciones al azar y a menudo es más eficiente cuando solo unos pocos hiperparámetros afectan fuertemente el rendimiento.
Optimización bayesiana: La optimización bayesiana ajusta un modelo sustituto probabilístico del rendimiento en función de los hiperparámetros y lo utiliza para elegir configuraciones prometedoras a evaluar a continuación, reduciendo el número de ensayos costosos.
Selección basada en validación: Dado que los hiperparámetros controlan la complejidad y el ajuste, deben elegirse utilizando datos de validación separados del conjunto de prueba final para evitar estimaciones optimistas del rendimiento.

Clinical relevance

La elección de hiperparámetros puede transformar un modelo inútil en uno de última generación, por lo que el ajuste sistemático es esencial, y los métodos automatizados lo hacen factible para modelos costosos; hacerlo correctamente, con datos de validación adecuados y una contabilidad honesta de la búsqueda, es necesario para evitar sobrestimar el rendimiento final.

History

La búsqueda en cuadrícula fue durante mucho tiempo el método predeterminado para el ajuste, pero Bergstra y Bengio demostraron en 2012 que la búsqueda aleatoria suele ser más eficiente. La optimización bayesiana y los métodos basados en bandidos, como la reducción sucesiva (successive halving), avanzaron posteriormente el ajuste automatizado, y la optimización de hiperparámetros se convirtió en una parte central del aprendizaje automático automatizado.

Key figures

James Bergstra
Yoshua Bengio
Trevor Hastie

Seminal works

hastie2009
goodfellow2016
bergstra2012

Frequently asked questions

¿Cuál es la diferencia entre un parámetro y un hiperparámetro?: Los parámetros, como los pesos de un modelo, se aprenden de los datos de entrenamiento. Los hiperparámetros, como la tasa de aprendizaje o la fuerza de regularización, se establecen antes del entrenamiento y controlan cómo procede el aprendizaje; se eligen buscando entre valores candidatos y evaluando en datos de validación.
¿Por qué la búsqueda aleatoria suele ser mejor que la búsqueda en cuadrícula?: Cuando solo unos pocos hiperparámetros afectan fuertemente el rendimiento, la búsqueda en cuadrícula desperdicia muchos ensayos variando los que no son importantes. El muestreo aleatorio explora las dimensiones importantes de manera más exhaustiva para el mismo número de ensayos, por lo que tiende a encontrar buenas configuraciones más rápidamente.