Modelagem de Tópicos e Mineração de Texto
A modelagem de tópicos lê um corpus da mesma forma que um leitor rápido faria, organizando suas palavras em agrupamentos recorrentes de termos coocorrentes que frequentemente se assemelham a temas. Ela e métodos relacionados de mineração de texto permitem que acadêmicos examinem vastas coleções, mas os padrões que emergem devem ser interpretados com cautela.
Definition
O uso de métodos estatísticos não supervisionados — notavelmente modelos de tópicos probabilísticos — e técnicas relacionadas de mineração de texto para descobrir estrutura temática e lexical latente em grandes corpora de humanidades.
Scope
Abrange métodos não supervisionados para descobrir a estrutura em grandes coleções de texto, especialmente modelos de tópicos probabilísticos como a Alocação Latente de Dirichlet, e técnicas mais amplas de mineração de texto para extrair padrões e tendências. Inclui como os humanistas usam, interpretam e criticam esses métodos. Distinto do processamento de linguagem natural como um campo de engenharia; a ênfase aqui é a interpretação humanística.
Core questions
- Quais são os agrupamentos que os modelos de tópicos produzem e são eles realmente temas?
- Como o número de tópicos e os parâmetros do modelo devem ser escolhidos?
- Como a saída do modelo de tópicos pode ser validada e interpretada de forma responsável?
- O que os padrões de mineração de texto permitem afirmar sobre um corpus?
Key concepts
- Alocação Latente de Dirichlet
- Tópico latente
- Distribuição documento-tópico
- Aprendizagem não supervisionada
- Interpretação do modelo
Key theories
- Alocação Latente de Dirichlet
- Blei, Ng e Jordan introduziram a LDA, um modelo probabilístico generativo que representa documentos como misturas de tópicos latentes, cada um uma distribuição sobre palavras.
- Modelos de tópicos probabilísticos como exploração
- Blei enquadrou os modelos de tópicos como ferramentas para explorar e organizar grandes arquivos, revelando a estrutura temática sem supervisão.
- Tópicos como construtos interpretativos
- Humanistas como Jockers aplicaram a modelagem de tópicos a corpora literários, enquanto críticos como Schmidt alertaram que os tópicos são artefatos estatísticos que exigem interpretação cuidadosa e cética.
History
A LDA foi introduzida em 2003 e rapidamente adotada em todas as ciências. Por volta de 2010, humanistas começaram a aplicar a modelagem de tópicos a corpora literários e históricos; o Macroanalysis (2013) de Jockers é um exemplo proeminente, enquanto a crítica de Schmidt de 2012 e outros trabalhos levantaram a questão de como interpretar a saída do modelo de forma responsável.
Debates
- Os tópicos são significativos ou artefatos?
- Se os agrupamentos de palavras produzidos pelos modelos de tópicos correspondem a temas interpretáveis ou são artefatos estatísticos moldados por escolhas de parâmetros e pré-processamento.
Key figures
- David Blei
- Matthew L. Jockers
- Benjamin Schmidt
Related topics
Seminal works
- blei2003
- blei2012
- jockers2013
- schmidt2012
Frequently asked questions
- Um modelo de tópicos me diz sobre o que é um corpus?
- Não por si só. Ele produz agrupamentos de palavras coocorrentes que podem corresponder a temas, mas são sensíveis ao pré-processamento e ao número de tópicos escolhido. A saída é um ponto de partida para a interpretação, não um resumo objetivo, e deve ser validada em relação aos textos.