Học máy và phân tích dự đoán trong chăm sóc lâm sàng
Học máy và phân tích dự đoán sử dụng các mẫu trong dữ liệu lâm sàng và sức khỏe để ước tính xác suất của các kết quả, chẳng hạn như chẩn đoán, tình trạng xấu đi, tái nhập viện hoặc đáp ứng điều trị, cho từng bệnh nhân. Chủ đề này bao gồm cách các mô hình dự đoán lâm sàng được phát triển, xác nhận và báo cáo, cũng như các tiêu chuẩn phương pháp luận phân biệt các mô hình đáng tin cậy với các mô hình gây hiểu lầm.
Definition
Học máy lâm sàng là việc sử dụng các thuật toán học các mối quan hệ thống kê từ dữ liệu bệnh nhân để dự đoán các kết quả liên quan đến lâm sàng; một mô hình dự đoán lâm sàng kết hợp nhiều yếu tố dự đoán để ước tính xác suất chẩn đoán (chẩn đoán) hoặc một sự kiện trong tương lai (tiên lượng) cho một cá nhân.
Scope
Mục này bao gồm học có giám sát để chẩn đoán và tiên lượng, các nguồn dữ liệu và đặc điểm được sử dụng trong môi trường lâm sàng, các khái niệm xác nhận trung tâm về phân biệt, hiệu chuẩn và xác nhận bên ngoài, rủi ro sai lệch và quá khớp, cũng như các tiêu chuẩn báo cáo và đánh giá như TRIPOD và PROBAST. Nó định hình học máy lâm sàng như một chủ đề phương pháp luận, mô tả cách các công cụ dự đoán được xây dựng và đánh giá thay vì đưa ra các khuyến nghị lâm sàng.
Key concepts
- Học có giám sát (chẩn đoán và tiên lượng)
- Phân biệt, hiệu chuẩn và tính hữu ích lâm sàng
- Xác nhận nội bộ và bên ngoài
- Quá khớp và lạc quan
- Dịch chuyển tập dữ liệu và khả năng tổng quát hóa
- Sai lệch thuật toán và tính công bằng
- Tiêu chuẩn báo cáo (TRIPOD) và đánh giá rủi ro sai lệch (PROBAST)
- Học sâu và học đặc trưng
Mechanisms
Một mô hình dự đoán lâm sàng được điều chỉnh trên dữ liệu đã được gán nhãn, học cách các yếu tố dự đoán liên quan đến một kết quả, và sau đó được đánh giá về khả năng phân biệt (mức độ nó phân tách tốt những người trải qua và không trải qua kết quả) và hiệu chuẩn (mức độ các xác suất dự đoán phù hợp với tần số quan sát được). Bởi vì các mô hình có xu hướng hoạt động lạc quan trên dữ liệu đã huấn luyện chúng, việc xác nhận nội bộ và đặc biệt là xác nhận bên ngoài trên các quần thể mới là rất cần thiết, và việc triển khai có thể bị ảnh hưởng bởi sự dịch chuyển tập dữ liệu (dataset shift) khi môi trường mục tiêu khác với môi trường phát triển (Rajkomar, 2019). Học sâu mở rộng những ý tưởng này bằng cách học các đặc điểm trực tiếp từ các đầu vào thô như hình ảnh, tín hiệu hoặc văn bản, điều này có thể cải thiện hiệu suất trong các tác vụ nhận thức đồng thời làm phức tạp khả năng giải thích (Esteva, 2019).
Clinical relevance
Các mô hình dự đoán ngày càng cung cấp điểm rủi ro, cảnh báo sớm và công cụ phân loại được tích hợp vào các hệ thống lâm sàng, do đó độ chính xác, hiệu chuẩn và tính công bằng của chúng ảnh hưởng trực tiếp đến chất lượng hướng dẫn mà các bác sĩ lâm sàng nhận được. Mục này mô tả cách các mô hình như vậy được phát triển và đánh giá; đầu ra của mô hình là các ước tính xác suất đòi hỏi sự diễn giải và giám sát lâm sàng, và văn bản này không phải là cơ sở cho bất kỳ quyết định chẩn đoán hoặc điều trị cá nhân nào.
Evidence & guidelines
Sự đồng thuận về phương pháp luận nhấn mạnh việc phát triển minh bạch và xác nhận nghiêm ngặt. Tuyên bố TRIPOD đặt ra các tiêu chuẩn báo cáo cho các nghiên cứu mô hình dự đoán để có thể đánh giá các phương pháp và hiệu suất (Collins, 2015), và PROBAST cung cấp một công cụ có cấu trúc để đánh giá rủi ro sai lệch và khả năng áp dụng trong các nghiên cứu đó (Wolff, 2019). Các đánh giá về học máy trong y học nhấn mạnh việc xác nhận bên ngoài, hiệu chuẩn, chú ý đến sai lệch và khoảng cách giữa hiệu suất hồi cứu và lợi ích lâm sàng tiềm năng (Rajkomar, 2019; Esteva, 2019).
History
Dự đoán lâm sàng có nguồn gốc lâu đời từ các điểm rủi ro dựa trên hồi quy, nhưng những năm 2010 đã chứng kiến sự phát triển nhanh chóng của học máy và học sâu được thúc đẩy bởi hồ sơ sức khỏe điện tử, hình ảnh và các tập dữ liệu lớn hơn. Cùng với đó là sự gia tăng lo ngại về khả năng tái tạo, hiệu suất được phóng đại và sai lệch, thúc đẩy các khuôn khổ báo cáo và đánh giá (TRIPOD, PROBAST) nhằm giữ cho các nghiên cứu mô hình tuân thủ các tiêu chuẩn phương pháp luận nhất quán.
Debates
- Tại sao nhiều mô hình hoạt động kém hơn trong thực tế so với các nghiên cứu phát triển?
- Việc xác nhận bên ngoài không đầy đủ, sự dịch chuyển tập dữ liệu giữa môi trường phát triển và triển khai, và báo cáo lạc quan có nghĩa là hiệu suất hồi cứu mạnh mẽ thường không chuyển thành lợi ích lâm sàng tiềm năng, thúc đẩy các tiêu chuẩn xác nhận và báo cáo nghiêm ngặt hơn.
- Nên xử lý sai lệch thuật toán và tính công bằng như thế nào?
- Các mô hình được huấn luyện trên dữ liệu lịch sử có thể mã hóa và khuếch đại sự chênh lệch, gây ra tranh luận về cách đo lường tính công bằng, khi nào sự khác biệt về hiệu suất giữa các nhóm là chấp nhận được và cách giám sát các mô hình đã triển khai để phát hiện sai lệch theo thời gian.
Key figures
- Alvin Rajkomar
- Gary S. Collins
- Karel G. M. Moons
- Isaac Kohane
Related topics
Seminal works
- rajkomar-2019
- collins-2015
- wolff-2019
Frequently asked questions
- Sự khác biệt giữa phân biệt và hiệu chuẩn là gì?
- Phân biệt là khả năng của một mô hình xếp hạng bệnh nhân sao cho những người trải qua kết quả có nguy cơ dự đoán cao hơn những người không trải qua, trong khi hiệu chuẩn là sự phù hợp giữa các xác suất dự đoán và tần số quan sát được; một mô hình có thể phân biệt tốt nhưng được hiệu chuẩn kém, vì vậy cả hai đều quan trọng.
- Tại sao xác nhận bên ngoài lại quan trọng đối với các mô hình dự đoán lâm sàng?
- Các mô hình thường hoạt động lạc quan trên dữ liệu được sử dụng để xây dựng chúng; việc kiểm tra trên các quần thể và môi trường độc lập cho thấy một mô hình tổng quát hóa tốt như thế nào và bảo vệ chống lại việc triển khai các công cụ thất bại khi sự kết hợp các trường hợp hoặc tài liệu khác với dữ liệu phát triển.