ScholarGate
Assistente

Modelagem de Tópicos e Mineração de Texto

A modelagem de tópicos lê um corpus da mesma forma que um leitor rápido faria, organizando suas palavras em agrupamentos recorrentes de termos coocorrentes que frequentemente se assemelham a temas. Ela e métodos relacionados de mineração de texto permitem que acadêmicos examinem vastas coleções, mas os padrões que emergem devem ser interpretados com cautela.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

O uso de métodos estatísticos não supervisionados — notavelmente modelos de tópicos probabilísticos — e técnicas relacionadas de mineração de texto para descobrir estrutura temática e lexical latente em grandes corpora de humanidades.

Scope

Abrange métodos não supervisionados para descobrir a estrutura em grandes coleções de texto, especialmente modelos de tópicos probabilísticos como a Alocação Latente de Dirichlet, e técnicas mais amplas de mineração de texto para extrair padrões e tendências. Inclui como os humanistas usam, interpretam e criticam esses métodos. Distinto do processamento de linguagem natural como um campo de engenharia; a ênfase aqui é a interpretação humanística.

Core questions

  • Quais são os agrupamentos que os modelos de tópicos produzem e são eles realmente temas?
  • Como o número de tópicos e os parâmetros do modelo devem ser escolhidos?
  • Como a saída do modelo de tópicos pode ser validada e interpretada de forma responsável?
  • O que os padrões de mineração de texto permitem afirmar sobre um corpus?

Key concepts

  • Alocação Latente de Dirichlet
  • Tópico latente
  • Distribuição documento-tópico
  • Aprendizagem não supervisionada
  • Interpretação do modelo

Key theories

Alocação Latente de Dirichlet
Blei, Ng e Jordan introduziram a LDA, um modelo probabilístico generativo que representa documentos como misturas de tópicos latentes, cada um uma distribuição sobre palavras.
Modelos de tópicos probabilísticos como exploração
Blei enquadrou os modelos de tópicos como ferramentas para explorar e organizar grandes arquivos, revelando a estrutura temática sem supervisão.
Tópicos como construtos interpretativos
Humanistas como Jockers aplicaram a modelagem de tópicos a corpora literários, enquanto críticos como Schmidt alertaram que os tópicos são artefatos estatísticos que exigem interpretação cuidadosa e cética.

History

A LDA foi introduzida em 2003 e rapidamente adotada em todas as ciências. Por volta de 2010, humanistas começaram a aplicar a modelagem de tópicos a corpora literários e históricos; o Macroanalysis (2013) de Jockers é um exemplo proeminente, enquanto a crítica de Schmidt de 2012 e outros trabalhos levantaram a questão de como interpretar a saída do modelo de forma responsável.

Debates

Os tópicos são significativos ou artefatos?
Se os agrupamentos de palavras produzidos pelos modelos de tópicos correspondem a temas interpretáveis ou são artefatos estatísticos moldados por escolhas de parâmetros e pré-processamento.

Key figures

  • David Blei
  • Matthew L. Jockers
  • Benjamin Schmidt

Related topics

Seminal works

  • blei2003
  • blei2012
  • jockers2013
  • schmidt2012

Frequently asked questions

Um modelo de tópicos me diz sobre o que é um corpus?
Não por si só. Ele produz agrupamentos de palavras coocorrentes que podem corresponder a temas, mas são sensíveis ao pré-processamento e ao número de tópicos escolhido. A saída é um ponto de partida para a interpretação, não um resumo objetivo, e deve ser validada em relação aos textos.

Methods for this concept

Related concepts