Языковые модели для информационного поиска
Подход языкового моделирования к поиску рассматривает каждый документ как вероятностный генератор текста и ранжирует документы по тому, насколько вероятно, что они сгенерировали запрос.
Definition
В подходе языкового моделирования к поиску каждому документу сопоставляется распределение вероятностей по терминам (его языковая модель), и документы ранжируются по вероятности того, что эта модель сгенерирует наблюдаемый запрос, при этом сглаживание перераспределяет вероятностную массу на невидимые термины.
Scope
Эта тема охватывает статистические языковые модели, применяемые к поиску: модель вероятности запроса, методы сглаживания, такие как Елинека-Мерсера и Дирихле, которые обрабатывают термины запроса, отсутствующие в документе, и расширения, такие как модели релевантности. В ней рассматривается, как оценивается языковая модель документа, почему сглаживание является существенным и как эта структура связана и конкурирует с векторными пространствами и вероятностными моделями релевантности. Она рассматривает классические генеративные языковые модели для ранжирования, а не более широкие нейронные методы и методы больших языковых моделей, описанные в других разделах.
Core questions
- Как языковая модель оценивается по терминам в одном документе?
- Почему модель документа должна быть сглажена, и что достигают методы сглаживания?
- Как оценка вероятности запроса связана со взвешиванием в стиле tf-idf?
- Как модели релевантности включают доказательства информационной потребности, выходящие за рамки буквального запроса?
- Как генеративная формулировка сравнивается с формулировкой вероятности релевантности?
Key concepts
- языковая модель документа
- вероятность запроса
- оценка вероятностей терминов методом максимального правдоподобия
- сглаживание (Елинека-Мерсера, Дирихле)
- интерполяция модели коллекции
- ранжирование по дивергенции Кульбака-Лейблера
- модели релевантности
- псевдорелевантная обратная связь
Key theories
- Модель вероятности запроса
- Каждый документ определяет языковую модель, и документы ранжируются по вероятности генерации запроса из этой модели, превращая поиск в вопрос генеративной вероятности, а не явного взвешивания релевантности.
- Сглаживание языковых моделей документов
- Поскольку документ представляет собой небольшую выборку, термины, отсутствующие в нем, в противном случае получили бы нулевую вероятность; методы сглаживания, такие как Елинека-Мерсера и Дирихле, интерполируют модель документа с моделью коллекции, и степень сглаживания сильно влияет на эффективность.
- Модели релевантности
- Языковые модели, основанные на релевантности, оценивают модель информационной потребности по запросу и наиболее релевантным документам, обеспечивая принципиальную форму расширения запроса и псевдорелевантной обратной связи в рамках языкового моделирования.
Clinical relevance
Языковое моделирование предоставило гибкое, теоретически обоснованное семейство ранжировщиков, которое стало стандартом в исследовательских системах и повлияло на производственный поиск. Его идеи сглаживания и моделей релевантности лежат в основе эффективного расширения запросов, а генеративная перспектива напрямую предвосхищает современные методы поиска на основе нейронных и больших языковых моделей.
History
Понте и Крофт представили подход языкового моделирования к поиску в 1998 году, переосмыслив ранжирование как генеративную вероятность. Исследование Чжая и Лафферти 2004 года установило центральную роль сглаживания и прояснило, какие методы работают лучше всего, а модели релевантности Лавренко и Крофта (2001) связали эту структуру с расширением запросов. Этот подход стал доминирующей исследовательской парадигмой в 2000-х годах.
Key figures
- W. Bruce Croft
- ChengXiang Zhai
- John Lafferty
- Jay M. Ponte
- Victor Lavrenko
Related topics
Seminal works
- ponte1998
- zhai2004
- lavrenko2001
Frequently asked questions
- Почему сглаживание так важно в поиске на основе языковых моделей?
- Отдельный документ — это крошечная выборка языка, поэтому многие релевантные термины запроса могут в нем не встречаться и получат нулевую вероятность, что нарушит оценку. Сглаживание заимствует вероятностную массу из общеколлекционной модели, так что невидимые термины получают небольшие ненулевые вероятности и эффективно вновь вводит взвешивание, подобное idf.
- Чем подход языкового моделирования отличается от вероятностных моделей релевантности?
- Вероятностные модели релевантности оценивают вероятность того, что документ релевантен, тогда как подход языкового моделирования оценивает вероятность того, что модель документа сгенерирует запрос. Они часто дают схожие ранжирования, но исходят из разных предположений: генеративных против ориентированных на релевантность.