Почему обработка клинического текста сложнее, чем обычного текста?

Клинические заметки насыщены сокращениями, опечатками, шаблонными фрагментами и специфическими для предметной области терминами, а смысл часто зависит от контекста, такого как отрицание или неопределенность, что делает точное извлечение более сложным, чем для обычного прозаического текста.

Что такое нормализация концептов в клинической ОЕЯ?

Это этап сопоставления текстового упоминания, такого как «сердечный приступ» или «ИМ», с единым стандартизированным концептом в контролируемом словаре, чтобы различные поверхностные формы одной и той же идеи могли обрабатываться последовательно последующими системами.

Обработка естественного языка в клинической документации

Значительная часть клинической информации записывается в виде свободного текста, повествовательных заметок, выписных эпикризов, радиологических и патологических отчетов, а не в виде структурированных кодов. Обработка естественного языка (ОЕЯ) в клинической документации — это набор вычислительных методов, которые извлекают структурированную, машиночитаемую информацию из этого текста, поддерживая задачи от кодирования и идентификации когорт до систем поддержки принятия решений и прогнозирования.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Клиническая обработка естественного языка — это применение вычислительных лингвистических методов к клиническому свободному тексту для идентификации, нормализации и структурирования содержащейся в нем информации, например, сопоставление упоминаний состояний, результатов и лекарств с кодированными концептами с учетом контекста, такого как отрицание и неопределенность.

Scope

Статья охватывает основные задачи ОЕЯ, применяемые к клиническим нарративам, такие как токенизация, распознавание именованных сущностей, нормализация концептов до контролируемых терминологий, обнаружение отрицаний и утверждений, а также извлечение связей; существующие конвейеры клинической ОЕЯ; особые трудности клинического языка; и переход от основанных на правилах подходов к статистическим и нейронным. Это методологическая тема, описывающая, как обрабатывается текст, а не источник клинических рекомендаций.

Key concepts

Распознавание именованных сущностей и нормализация концептов
Обнаружение отрицаний и утверждений
Извлечение информации и извлечение связей
Сопоставление концептов с UMLS / контролируемыми терминологиями
Конвейеры клинической ОЕЯ (например, cTAKES)
Методы, основанные на правилах, статистические и нейронные методы
Деидентификация клинического текста
Неоднозначность, сокращения и сдвиг домена

Mechanisms

Клиническая ОЕЯ обычно включает последовательность этапов: сегментация и токенизация текста, распознавание клинически значимых упоминаний, их нормализация до концептов в контролируемом словаре и обнаружение контекста, такого как отрицание, неопределенность или относится ли находка к пациенту или члену семьи. Открытые конвейеры, такие как cTAKES, объединяли эти компоненты для клинических нарративов и сопоставляли извлеченные термины со стандартизированными концептами (Savova, 2010). Нормализация концептов опирается на интеграцию таких ресурсов, как UMLS, который связывает многие исходные словари, так что различные поверхностные формы разрешаются в общие идентификаторы (Bodenreider, 2004). Область перешла от правил, созданных вручную, к статистическим и нейронным моделям, в то время как основные задачи остаются неизменными (Nadkarni, 2011).

Clinical relevance

Поскольку так много клинически значимых деталей содержится в повествовательных заметках, ОЕЯ определяет, какая часть этих деталей становится доступной для кодирования, измерения качества, отбора когорт и последующей поддержки принятия решений. Эта статья описывает, как клинический текст обрабатывается и структурируется; извлеченная информация требует валидации и человеческого контроля, и текст не является основой для каких-либо индивидуальных диагностических или лечебных решений.

Evidence & guidelines

Клиническая ОЕЯ оценивается главным образом с помощью метрик производительности, специфичных для задач, и общих задач оценки, а не клинических испытаний результатов. Вводные и системные статьи документируют стандартный конвейер и его компоненты (Nadkarni, 2011; Savova, 2010), а нормализация концептов зависит от интеграции терминологий, таких как UMLS (Bodenreider, 2004). Известно, что производительность варьируется в зависимости от учреждений и типов заметок, поэтому подчеркивается важность локальной валидации.

History

Клиническая ОЕЯ выросла из ранних систем обработки медицинского языка и основанного на правилах сопоставления шаблонов, достигнув зрелости в 2000-х годах с появлением многократно используемых конвейеров с открытым исходным кодом и общих задач оценки, которые стандартизировали задачи и бенчмарки. В 2010-х годах область перешла от методов, основанных на правилах и классическом машинном обучении, к нейронным, а затем и к языковым моделям на основе трансформеров, сохраняя при этом те же основные задачи извлечения и нормализации.

Debates

Насколько переносимы клинические системы ОЕЯ между учреждениями?: Модели и правила, настроенные на заметках одного учреждения, часто ухудшают свою производительность в другом из-за различий в шаблонах, сокращениях и стиле документации, что вызывает дебаты о генерализуемости, необходимости локальной адаптации и общих аннотированных корпусах.

Key figures

Wendy W. Chapman
Guergana K. Savova
Prakash M. Nadkarni
Lucila Ohno-Machado

Seminal works

nadkarni-2011
savova-2010
bodenreider-2004

Frequently asked questions

Почему обработка клинического текста сложнее, чем обычного текста?: Клинические заметки насыщены сокращениями, опечатками, шаблонными фрагментами и специфическими для предметной области терминами, а смысл часто зависит от контекста, такого как отрицание или неопределенность, что делает точное извлечение более сложным, чем для обычного прозаического текста.
Что такое нормализация концептов в клинической ОЕЯ?: Это этап сопоставления текстового упоминания, такого как «сердечный приступ» или «ИМ», с единым стандартизированным концептом в контролируемом словаре, чтобы различные поверхностные формы одной и той же идеи могли обрабатываться последовательно последующими системами.