Классификация текста
Классификация текста — это автоматическое присвоение документам одной или нескольких предопределенных категорий с использованием моделей, обученных на размеченных примерах.
Definition
Классификация текста — это задача присвоения документу одной или нескольких категорий из предопределенного набора, выполняемая моделью, обученной на документах, чьи метки категорий известны, с использованием терминологического представления документа в качестве входных признаков.
Scope
Эта тема охватывает контролируемую категоризацию текста: формулировку задачи как одноместной, многоместной или иерархической классификации; репрезентативные алгоритмы обучения, применяемые к тексту, такие как наивный Байес, метод центроидов Роккио, метод k-ближайших соседей и метод опорных векторов; отбор признаков для высокоразмерного текста; и оценку классификаторов. Она рассматривает классификацию, используемую в контекстах поиска, таких как фильтрация и маршрутизация, опираясь на машинное обучение, но фокусируясь на специфических для текста аспектах, а не на общей теории классификаторов.
Core questions
- Как категоризация текста формулируется как одноместная, многоместная или иерархическая классификация?
- Какие алгоритмы обучения хорошо работают с высокоразмерными, разреженными текстовыми признаками?
- Как отбираются информативные признаки из большого словаря?
- Почему метод опорных векторов особенно хорошо подходит для текста?
- Как оцениваются текстовые классификаторы и как обрабатывается дисбаланс классов?
Key concepts
- контролируемая категоризация
- одноместная против многоместной классификации
- наивный Байес
- классификация Роккио / центроидов
- k-ближайшие соседи
- метод опорных векторов
- отбор признаков
- оценка классификатора (точность, полнота, F1-мера)
Key theories
- Наивная байесовская классификация текста
- Моделирование терминов каждого документа как условно независимых при данном классе дает простой, быстрый вероятностный классификатор, который, несмотря на сильное предположение о независимости, конкурентоспособно работает во многих текстовых задачах.
- Метод опорных векторов для текста
- Поскольку текст имеет много разреженных, в основном релевантных признаков, а классы часто линейно разделимы в этом пространстве, метод опорных векторов с большим отступом достигает высокой точности категоризации текста с минимальным проектированием признаков.
Clinical relevance
Классификация текста обеспечивает работу фильтрации спама в электронной почте, модерации контента, маршрутизации и тегирования тем, анализа настроений, а также категоризации, поддерживающей фасетный поиск и фильтрацию. В контексте поиска она лежит в основе систем фильтрации и маршрутизации документов, которые доставляют документы, соответствующие постоянным информационным потребностям.
History
Автоматическая категоризация текста началась с систем правил, созданных вручную, и перешла к машинному обучению в 1990-х годах. Демонстрация Йоахимсом в 1998 году превосходства метода опорных векторов в работе с текстом и обзор Себастьяни 2002 года заложили современную парадигму контролируемого обучения. Та же задача теперь служит стандартным эталоном для моделей представления и нейронных текстовых моделей.
Key figures
- Fabrizio Sebastiani
- Thorsten Joachims
- Yiming Yang
Related topics
Seminal works
- sebastiani2002
- joachims1998
- manning2008
Frequently asked questions
- Почему наивный Байес хорошо работает, несмотря на его нереалистичное предположение о независимости?
- Несмотря на то, что термины не являются по-настоящему независимыми, решение наивного Байеса часто приводит к правильному классу, поскольку это предположение в основном искажает оценки вероятности, а не относительный порядок классов. Он также быстр и надежен при ограниченных данных, что делает его сильной базовой моделью.
- В чем разница между одноместной и многоместной классификацией?
- Одноместная классификация присваивает каждому документу ровно одну категорию, тогда как многоместная классификация позволяет документу принадлежать к нескольким категориям одновременно, например, когда статья помечена несколькими темами. Многоместные задачи требуют методов и метрик, которые обрабатывают перекрывающиеся метки.