ScholarGate
Assistente

Modelos de Linguagem Neural e Embeddings de Palavras

Aprendizagem de representações vetoriais densas de palavras e contextos a partir de texto bruto — desde embeddings word2vec até representações contextuais como BERT — que codificam o significado como geometria.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

Um embedding de palavra é um vetor denso de valores reais que representa o significado de uma palavra, aprendido de modo que a similaridade distribucional se reflita na proximidade do espaço vetorial; embeddings contextuais estendem isso para representações que dependem do texto circundante.

Scope

Abrange representações distribuídas e neurais da linguagem: a hipótese distribucional, embeddings de palavras estáticos como word2vec e GloVe, modelos de linguagem neural e embeddings contextuais de transformadores pré-treinados como BERT. Aborda como as representações são treinadas, avaliadas e transferidas para tarefas a jusante. Detalhes da arquitetura do Transformer e geração são abordados em um tópico relacionado.

Core questions

  • O que é a hipótese distribucional e como os embeddings a operacionalizam?
  • Como o word2vec aprende vetores de palavras a partir da coocorrência?
  • Como os embeddings contextuais diferem dos estáticos?
  • Por que o pré-treinamento e a aprendizagem por transferência transformaram o PNL?

Key concepts

  • hipótese distribucional
  • embedding de palavra
  • word2vec
  • skip-gram
  • embedding contextual
  • pré-treinamento e ajuste fino
  • aprendizagem por transferência
  • modelagem de linguagem mascarada

Key theories

Hipótese distribucional
A ideia de que palavras que ocorrem em contextos semelhantes têm significados semelhantes, o que fundamenta todos os métodos de embedding ao derivar o significado das estatísticas de coocorrência.
Pré-treinamento contextual
Pré-treinamento de modelos bidirecionais profundos em grandes volumes de texto não rotulado, como no BERT, para produzir representações sensíveis ao contexto que se transferem para muitas tarefas a jusante com pouco ajuste fino.

History

A hipótese distribucional de Harris foi operacionalizada primeiro por modelos de espaço vetorial baseados em contagem, depois pelo modelo de linguagem neural de Bengio (2003) e pelo eficiente word2vec de Mikolov (2013). A chegada, em 2018–2019, de modelos contextuais como ELMo e BERT tornou o pré-treinamento e o ajuste fino o paradigma dominante.

Debates

O que os embeddings realmente codificam?
Se as representações aprendidas capturam estrutura semântica e sintática genuína ou meramente regularidades de coocorrência e vieses presentes nos dados de treinamento, uma questão central para a interpretabilidade.

Key figures

  • Yoshua Bengio
  • Tomas Mikolov
  • Jacob Devlin
  • Zellig Harris

Related topics

Seminal works

  • bengio2003
  • mikolov2013
  • devlin2019

Frequently asked questions

Qual é a diferença entre embeddings estáticos e contextuais?
Um embedding estático atribui a uma palavra um vetor fixo, independentemente do contexto, de modo que 'banco' tem uma única representação. Um embedding contextual produz um vetor diferente para cada ocorrência, distinguindo um banco de rio de um banco financeiro.

Methods for this concept

Related concepts