Como a aprendizagem por reforço difere da aprendizagem supervisionada?

Na aprendizagem supervisionada, é fornecida a saída correta para cada entrada. Um agente de aprendizagem por reforço recebe apenas um sinal de recompensa que avalia os resultados de suas ações, deve descobrir um bom comportamento por tentativa e erro, e deve lidar com recompensas que chegam muito tempo depois das ações que as geraram.

O que é o dilema exploração-explotação?

Um agente deve escolher entre explorar ações conhecidas por dar boa recompensa e explorar ações não testadas que podem ser ainda melhores. Pouca exploração pode levar a uma estratégia subótima, enquanto muita desperdiça oportunidades, então equilibrar os dois é central para a aprendizagem por reforço.

Aprendizagem por Reforço

A aprendizagem por reforço treina um agente para tomar sequências de decisões por tentativa e erro, maximizando a recompensa cumulativa através da interação com um ambiente.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

Aprendizagem por reforço é o problema de aprender uma política, um mapeamento de situações para ações, que maximiza a recompensa cumulativa esperada, onde o agente aprende com as consequências de suas próprias ações, em vez de exemplos rotulados de comportamento correto.

Scope

Esta área abrange a aprendizagem para agir: o arcabouço do processo de decisão de Markov de estados, ações, recompensas e transições; funções de valor e as equações de Bellman; métodos baseados em valor, como aprendizagem por diferença temporal e Q-learning; métodos de gradiente de política que otimizam uma política diretamente; e a combinação dessas ideias com redes neurais profundas. Aborda o dilema exploração-explotação e o desafio da recompensa atrasada.

Sub-topics

Core questions

Como um agente pode aprender um bom comportamento apenas a partir de sinais de recompensa?
Como o valor de longo prazo e a recompensa imediata se relacionam através das equações de Bellman?
Como um agente deve equilibrar a exploração de novas ações com a exploração de ações boas já conhecidas?
Como o crédito é atribuído a ações anteriores por recompensas posteriores?

Key theories

Processos de decisão de Markov e funções de valor: A interação é modelada como um processo de decisão de Markov, e as funções de valor resumem a recompensa futura esperada, satisfazendo as equações de Bellman que fundamentam quase todos os algoritmos de aprendizagem por reforço.
Aprendizagem por diferença temporal: Agentes podem aprender estimativas de valor por bootstrapping, atualizando previsões em direção a previsões posteriores mais a recompensa observada, o que permite a aprendizagem a partir de episódios incompletos e experiência online.
Aprendizagem por reforço profunda: O uso de redes neurais profundas para aproximar funções de valor ou políticas permite que a aprendizagem por reforço seja escalada para entradas de alta dimensão, como demonstrado por agentes que aprenderam a jogar jogos de Atari e o jogo de Go.

Clinical relevance

A aprendizagem por reforço aborda a tomada de decisões sequenciais sob incerteza e impulsionou avanços em jogos, robótica, recomendação e controle, bem como o alinhamento de grandes modelos de linguagem através da aprendizagem a partir de feedback; sua natureza de tentativa e erro e a dificuldade de especificar a recompensa tornam a aprendizagem segura e eficiente em termos de amostras preocupações ativas.

History

A aprendizagem por reforço unificou ideias de controle ótimo, programação dinâmica e aprendizagem animal. A aprendizagem por diferença temporal e o Q-learning surgiram nas décadas de 1980 e início de 1990, e o livro-texto de Sutton e Barto codificou o campo. A combinação dos anos 2010 com o aprendizado profundo produziu agentes que alcançaram o nível humano em jogos de Atari e o nível super-humano no Go.

Debates

Eficiência de amostra e design de recompensa: A aprendizagem por reforço pode exigir uma interação enorme e é sensível à forma como a recompensa é especificada, o que gera debate sobre como torná-la mais eficiente em termos de dados e como evitar que os agentes explorem recompensas mal especificadas.

Key figures

Richard Sutton
Andrew Barto
Christopher Watkins
David Silver

Seminal works

sutton2018
mnih2015
silver2016

Frequently asked questions

Como a aprendizagem por reforço difere da aprendizagem supervisionada?: Na aprendizagem supervisionada, é fornecida a saída correta para cada entrada. Um agente de aprendizagem por reforço recebe apenas um sinal de recompensa que avalia os resultados de suas ações, deve descobrir um bom comportamento por tentativa e erro, e deve lidar com recompensas que chegam muito tempo depois das ações que as geraram.
O que é o dilema exploração-explotação?: Um agente deve escolher entre explorar ações conhecidas por dar boa recompensa e explorar ações não testadas que podem ser ainda melhores. Pouca exploração pode levar a uma estratégia subótima, enquanto muita desperdiça oportunidades, então equilibrar os dois é central para a aprendizagem por reforço.