Классификация текстов и анализ тональности
Присвоение категориям текстов — темам, языкам, спаму или тональности — с использованием вероятностных и нейронных классификаторов, наиболее широко применяемого семейства методов НЛП.
Definition
Классификация текстов — это контролируемое присвоение одного или нескольких предопределенных категориальных меток фрагменту текста, при этом анализ тональности является ведущим приложением.
Scope
Охватывает контролируемую классификацию документов и коротких текстов: представления признаков, такие как «мешок слов» и вложения (embeddings), классические модели, такие как наивный Байес и логистическая регрессия, нейронные классификаторы и важное применение анализа тональности и мнений. Рассматриваются оценка, дисбаланс классов и разработка признаков. Само обучение представлений рассматривается в родственной теме.
Core questions
- Как текст представляется в виде признаков для классификатора?
- Когда уместны наивный Байес, логистическая регрессия или нейронные модели?
- Как анализ тональности справляется с отрицанием, сарказмом и контекстом?
- Как справедливо измеряется производительность классификатора при дисбалансе классов?
Key concepts
- мешок слов
- наивный Байес
- логистическая регрессия
- разработка признаков
- анализ тональности
- обнаружение субъективности
- дисбаланс классов
- точность и полнота
Key theories
- Классификация по модели «мешка слов»
- Представление документа как совокупности его слов и классификация с помощью таких моделей, как наивный Байес или логистическая регрессия, что является простой, но сильной базовой моделью.
- Анализ тональности с учетом субъективности
- Улучшение классификации тональности путем предварительного разделения субъективного и объективного содержания, как в подходе минимального разреза Пэнга и Ли.
History
Классификация текстов была одной из первых задач НЛП, которая полностью перешла на статистические методы, при этом наивный Байес, а затем и машины опорных векторов доминировали в 1990-х и 2000-х годах. Анализ тональности, популяризированный Пэнгом и Ли в начале 2000-х годов, стал крупной под-областью; нейронные классификаторы и предварительно обученные модели впоследствии повысили точность по всем направлениям.
Debates
- Простые признаки против глубоких представлений
- Сильные базовые модели «мешка слов» часто конкурируют с нейронными моделями в коротких тематических задачах, что вызывает дебаты о том, когда оправдана дополнительная сложность глубоких представлений.
Key figures
- Bo Pang
- Lillian Lee
- Christopher Manning
Related topics
Seminal works
- pang2004
- manning1999
Frequently asked questions
- Почему анализ тональности сложнее классификации тем?
- Тональность зависит от тонких нюансов, таких как отрицание, сравнение и сарказм, и одни и те же слова могут выражать противоположные полярности в разных контекстах, поэтому поверхностного подсчета слов часто бывает недостаточно.