Qual é a diferença entre embeddings estáticos e contextuais?

Um embedding estático atribui a uma palavra um vetor fixo, independentemente do contexto, de modo que 'banco' tem uma única representação. Um embedding contextual produz um vetor diferente para cada ocorrência, distinguindo um banco de rio de um banco financeiro.

Modelos de Linguagem Neural e Embeddings de Palavras

Aprendizagem de representações vetoriais densas de palavras e contextos a partir de texto bruto — desde embeddings word2vec até representações contextuais como BERT — que codificam o significado como geometria.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

Um embedding de palavra é um vetor denso de valores reais que representa o significado de uma palavra, aprendido de modo que a similaridade distribucional se reflita na proximidade do espaço vetorial; embeddings contextuais estendem isso para representações que dependem do texto circundante.

Scope

Abrange representações distribuídas e neurais da linguagem: a hipótese distribucional, embeddings de palavras estáticos como word2vec e GloVe, modelos de linguagem neural e embeddings contextuais de transformadores pré-treinados como BERT. Aborda como as representações são treinadas, avaliadas e transferidas para tarefas a jusante. Detalhes da arquitetura do Transformer e geração são abordados em um tópico relacionado.

Core questions

O que é a hipótese distribucional e como os embeddings a operacionalizam?
Como o word2vec aprende vetores de palavras a partir da coocorrência?
Como os embeddings contextuais diferem dos estáticos?
Por que o pré-treinamento e a aprendizagem por transferência transformaram o PNL?

Key concepts

hipótese distribucional
embedding de palavra
word2vec
skip-gram
embedding contextual
pré-treinamento e ajuste fino
aprendizagem por transferência
modelagem de linguagem mascarada

Key theories

Hipótese distribucional: A ideia de que palavras que ocorrem em contextos semelhantes têm significados semelhantes, o que fundamenta todos os métodos de embedding ao derivar o significado das estatísticas de coocorrência.
Pré-treinamento contextual: Pré-treinamento de modelos bidirecionais profundos em grandes volumes de texto não rotulado, como no BERT, para produzir representações sensíveis ao contexto que se transferem para muitas tarefas a jusante com pouco ajuste fino.

History

A hipótese distribucional de Harris foi operacionalizada primeiro por modelos de espaço vetorial baseados em contagem, depois pelo modelo de linguagem neural de Bengio (2003) e pelo eficiente word2vec de Mikolov (2013). A chegada, em 2018–2019, de modelos contextuais como ELMo e BERT tornou o pré-treinamento e o ajuste fino o paradigma dominante.

Debates

O que os embeddings realmente codificam?: Se as representações aprendidas capturam estrutura semântica e sintática genuína ou meramente regularidades de coocorrência e vieses presentes nos dados de treinamento, uma questão central para a interpretabilidade.

Key figures

Yoshua Bengio
Tomas Mikolov
Jacob Devlin
Zellig Harris

Seminal works

bengio2003
mikolov2013
devlin2019

Frequently asked questions

Qual é a diferença entre embeddings estáticos e contextuais?: Um embedding estático atribui a uma palavra um vetor fixo, independentemente do contexto, de modo que 'banco' tem uma única representação. Um embedding contextual produz um vetor diferente para cada ocorrência, distinguindo um banco de rio de um banco financeiro.