Tại sao xử lý văn bản lâm sàng khó hơn văn bản thông thường?

Các ghi chú lâm sàng dày đặc các từ viết tắt, lỗi chính tả, các đoạn mẫu và các thuật ngữ chuyên ngành, và ý nghĩa thường phụ thuộc vào ngữ cảnh như phủ định hoặc sự không chắc chắn, tất cả đều làm cho việc trích xuất chính xác khó khăn hơn so với văn xuôi thông thường.

Chuẩn hóa khái niệm trong NLP lâm sàng là gì?

Đó là bước ánh xạ một đề cập văn bản, chẳng hạn như 'đau tim' hoặc 'MI', đến một khái niệm chuẩn hóa duy nhất trong một từ vựng được kiểm soát, để các dạng bề mặt khác nhau của cùng một ý tưởng có thể được xử lý nhất quán bởi các hệ thống tiếp theo.

Xử lý ngôn ngữ tự nhiên trong tài liệu lâm sàng

Một phần lớn thông tin lâm sàng được ghi lại dưới dạng văn bản tự do, ghi chú tường thuật, tóm tắt xuất viện, báo cáo X quang và bệnh lý, thay vì dưới dạng mã có cấu trúc. Xử lý ngôn ngữ tự nhiên (NLP) trong tài liệu lâm sàng là tập hợp các phương pháp tính toán trích xuất thông tin có cấu trúc, có thể sử dụng bằng máy từ văn bản đó, hỗ trợ các tác vụ từ mã hóa và nhận dạng đoàn hệ đến cung cấp dữ liệu cho các hệ thống hỗ trợ quyết định và dự đoán.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Xử lý ngôn ngữ tự nhiên lâm sàng là việc áp dụng các phương pháp ngôn ngữ học tính toán vào văn bản tự do lâm sàng để xác định, chuẩn hóa và cấu trúc thông tin mà nó chứa, ví dụ như ánh xạ các đề cập về tình trạng, phát hiện và thuốc đến các khái niệm được mã hóa trong khi tính đến ngữ cảnh như phủ định và sự không chắc chắn.

Scope

Mục này bao gồm các tác vụ NLP cốt lõi được áp dụng cho các tường thuật lâm sàng, chẳng hạn như phân tách từ (tokenisation), nhận dạng thực thể có tên (named-entity recognition), chuẩn hóa khái niệm thành các thuật ngữ được kiểm soát, phát hiện phủ định và khẳng định, và trích xuất quan hệ; các quy trình NLP lâm sàng đã được thiết lập; những khó khăn đặc thù của ngôn ngữ lâm sàng; và sự chuyển đổi từ các phương pháp dựa trên quy tắc sang các phương pháp thống kê và mạng nơ-ron. Đây là một chủ đề về phương pháp luận mô tả cách văn bản được xử lý, không phải là một nguồn khuyến nghị lâm sàng.

Key concepts

Nhận dạng thực thể có tên và chuẩn hóa khái niệm
Phát hiện phủ định và khẳng định
Trích xuất thông tin và trích xuất quan hệ
Ánh xạ khái niệm đến UMLS / các thuật ngữ được kiểm soát
Các quy trình NLP lâm sàng (ví dụ: cTAKES)
Phương pháp dựa trên quy tắc so với thống kê so với mạng nơ-ron
Khử nhận dạng văn bản lâm sàng
Tính mơ hồ, viết tắt và dịch chuyển miền

Mechanisms

NLP lâm sàng thường chuỗi các giai đoạn: phân đoạn và phân tách từ văn bản, nhận dạng các đề cập có liên quan lâm sàng, chuẩn hóa chúng thành các khái niệm trong một từ vựng được kiểm soát, và phát hiện ngữ cảnh như phủ định, sự không chắc chắn, hoặc liệu một phát hiện có liên quan đến bệnh nhân hay một thành viên trong gia đình. Các quy trình mở như cTAKES đã đóng gói các thành phần này cho các tường thuật lâm sàng và ánh xạ các thuật ngữ được trích xuất đến các khái niệm được chuẩn hóa (Savova, 2010). Chuẩn hóa khái niệm dựa trên việc tích hợp các tài nguyên như UMLS, liên kết nhiều từ vựng nguồn để các dạng bề mặt khác nhau được giải quyết thành các định danh chung (Bodenreider, 2004). Lĩnh vực này đã chuyển từ các quy tắc được xây dựng thủ công sang các mô hình thống kê và mạng nơ-ron, trong khi các tác vụ cơ bản vẫn nhất quán (Nadkarni, 2011).

Clinical relevance

Bởi vì rất nhiều chi tiết có ý nghĩa lâm sàng nằm trong các ghi chú tường thuật, NLP quyết định mức độ chi tiết đó trở nên khả dụng cho việc mã hóa, đo lường chất lượng, lựa chọn đoàn hệ và hỗ trợ quyết định tiếp theo. Mục này mô tả cách văn bản lâm sàng được xử lý và cấu trúc; thông tin được trích xuất yêu cầu xác nhận và giám sát của con người, và văn bản không phải là cơ sở cho bất kỳ quyết định chẩn đoán hoặc điều trị cá nhân nào.

Evidence & guidelines

NLP lâm sàng được đánh giá chủ yếu thông qua các chỉ số hiệu suất cụ thể theo tác vụ và các thử thách đánh giá chung hơn là các thử nghiệm kết quả lâm sàng. Các bài báo giới thiệu và hệ thống ghi lại quy trình chuẩn và các thành phần của nó (Nadkarni, 2011; Savova, 2010), và chuẩn hóa khái niệm phụ thuộc vào việc tích hợp các thuật ngữ như UMLS (Bodenreider, 2004). Hiệu suất được biết là thay đổi giữa các tổ chức và loại ghi chú, vì vậy việc xác nhận cục bộ được nhấn mạnh.

History

NLP lâm sàng phát triển từ các hệ thống xử lý ngôn ngữ y tế ban đầu và khớp mẫu dựa trên quy tắc, trưởng thành vào những năm 2000 với các quy trình mã nguồn mở có thể tái sử dụng và các thử thách đánh giá chung đã chuẩn hóa các tác vụ và tiêu chuẩn. Trong suốt những năm 2010, lĩnh vực này đã chuyển từ các phương pháp dựa trên quy tắc và học máy cổ điển sang các mô hình mạng nơ-ron và sau đó là các mô hình ngôn ngữ dựa trên transformer, trong khi vẫn giữ nguyên các tác vụ trích xuất và chuẩn hóa cốt lõi.

Debates

Các hệ thống NLP lâm sàng có thể di động như thế nào giữa các địa điểm?: Các mô hình và quy tắc được điều chỉnh trên ghi chú của một tổ chức thường suy giảm hiệu suất trên ghi chú của tổ chức khác do sự khác biệt về mẫu, viết tắt và phong cách tài liệu, làm dấy lên tranh luận về khả năng tổng quát hóa, nhu cầu thích ứng cục bộ và các kho ngữ liệu được chú thích chung.

Key figures

Wendy W. Chapman
Guergana K. Savova
Prakash M. Nadkarni
Lucila Ohno-Machado

Seminal works

nadkarni-2011
savova-2010
bodenreider-2004

Frequently asked questions

Tại sao xử lý văn bản lâm sàng khó hơn văn bản thông thường?: Các ghi chú lâm sàng dày đặc các từ viết tắt, lỗi chính tả, các đoạn mẫu và các thuật ngữ chuyên ngành, và ý nghĩa thường phụ thuộc vào ngữ cảnh như phủ định hoặc sự không chắc chắn, tất cả đều làm cho việc trích xuất chính xác khó khăn hơn so với văn xuôi thông thường.
Chuẩn hóa khái niệm trong NLP lâm sàng là gì?: Đó là bước ánh xạ một đề cập văn bản, chẳng hạn như 'đau tim' hoặc 'MI', đến một khái niệm chuẩn hóa duy nhất trong một từ vựng được kiểm soát, để các dạng bề mặt khác nhau của cùng một ý tưởng có thể được xử lý nhất quán bởi các hệ thống tiếp theo.