識別能と較正の違いは何ですか？

識別能は、モデルが患者をランク付けし、アウトカムを経験する患者が経験しない患者よりも高い予測リスクを得る能力を指します。一方、較正は、予測された確率と観察された頻度との一致度を指します。モデルは識別能が優れていても較正が不十分な場合があるため、両方が重要です。

臨床予測モデルにとって外部検証が重要なのはなぜですか？

モデルは、構築に使用されたデータに対して楽観的な性能を示すことがよくあります。独立した集団や設定でテストすることで、モデルがどれだけ一般化できるかが明らかになり、症例構成や記録が開発データと異なる場合に機能しないツールが展開されるのを防ぐことができます。

臨床医療における機械学習と予測分析

機械学習と予測分析は、臨床データや健康データに見られるパターンを利用して、個々の患者における診断、病状悪化、再入院、治療反応などのアウトカムの確率を推定します。本項目では、臨床予測モデルがどのように開発、検証、報告されるか、また信頼できるモデルと誤解を招くモデルを区別するための方法論的基準について概説します。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

臨床機械学習とは、患者データから統計的関係性を学習するアルゴリズムを用いて、臨床的に関連性の高いアウトカムを予測することです。臨床予測モデルは、複数の予測因子を組み合わせて、個人の診断（診断モデル）または将来のイベント（予後モデル）の確率を推定します。

Scope

本項目では、診断と予後予測のための教師あり学習、臨床現場で使用されるデータソースと特徴量、識別能、較正、外部検証といった中心的な検証概念、バイアスと過学習のリスク、およびTRIPODやPROBASTなどの報告および評価基準について扱います。臨床機械学習を方法論的なトピックとして位置づけ、予測ツールがどのように構築され、評価されるかを記述するものであり、臨床的な推奨を提供するものではありません。

Key concepts

教師あり学習（診断と予後予測）
識別能、較正、および臨床的有用性
内部検証と外部検証
過学習と楽観的評価
データセットシフトと一般化可能性
アルゴリズムバイアスと公平性
報告基準（TRIPOD）とバイアスのリスク評価（PROBAST）
深層学習と特徴量学習

Mechanisms

臨床予測モデルは、ラベル付けされたデータで適合され、予測因子がアウトカムとどのように関連するかを学習します。その後、識別能（アウトカムを経験する者としない者をどれだけうまく区別できるか）と較正（予測された確率が観察された頻度とどれだけ一致するか）について評価されます。モデルは、学習に用いたデータに対して楽観的な性能を示す傾向があるため、内部検証、特に新しい集団での外部検証が不可欠です。また、開発設定と対象設定が異なる場合（データセットシフト）には、展開が損なわれる可能性があります（Rajkomar, 2019）。深層学習は、画像、信号、テキストなどの生データから直接特徴量を学習することでこれらの概念を拡張し、知覚タスクの性能を向上させる一方で、解釈可能性を複雑にする可能性があります（Esteva, 2019）。

Clinical relevance

予測モデルは、リスクスコア、早期警告アラート、トリアージツールとして臨床システムに組み込まれることが増えており、その精度、較正、公平性は、臨床医が受け取るガイダンスの質に直接影響します。本項目では、このようなモデルがどのように開発され、評価されるかを記述しています。モデルの出力は確率的推定値であり、臨床的な解釈と監督が必要です。本文は、個別の診断や治療の決定の根拠となるものではありません。

Evidence & guidelines

方法論的なコンセンサスは、透明性の高い開発と厳格な検証を重視しています。TRIPOD声明は、予測モデル研究の報告基準を定め、方法と性能が評価できるようにしています（Collins, 2015）。PROBASTは、そのような研究におけるバイアスのリスクと適用可能性を判断するための構造化されたツールを提供します（Wolff, 2019）。医学における機械学習のレビューでは、外部検証、較正、バイアスへの注意、および遡及的性能と将来的な臨床的利益との間のギャップが強調されています（Rajkomar, 2019; Esteva, 2019）。

History

臨床予測は、回帰ベースのリスクスコアに長い歴史がありますが、2010年代には、電子カルテ、画像診断、およびより大規模なデータセットに支えられ、機械学習と深層学習が急速に発展しました。これに伴い、再現性、過大評価された性能、およびバイアスに関する懸念が高まり、モデル研究を一貫した方法論的基準に準拠させることを目的とした報告および評価フレームワーク（TRIPOD、PROBAST）が促されました。

Debates

多くのモデルが、開発研究よりも実際の現場で性能が劣るのはなぜですか？: 不十分な外部検証、開発設定と展開設定間のデータセットシフト、および楽観的な報告により、強力な遡及的性能が将来的な臨床的利益に結びつかないことが多く、より厳格な検証と報告基準が求められています。
アルゴリズムバイアスと公平性はどのように扱うべきですか？: 過去のデータで学習されたモデルは、格差を符号化し増幅する可能性があり、公平性をどのように測定するか、グループ間の性能差が許容されるのはいつか、展開されたモデルのバイアスを時間とともにどのように監視するかについて議論が提起されています。

Key figures

Alvin Rajkomar
Gary S. Collins
Karel G. M. Moons
Isaac Kohane

Seminal works

rajkomar-2019
collins-2015
wolff-2019

Frequently asked questions

識別能と較正の違いは何ですか？: 識別能は、モデルが患者をランク付けし、アウトカムを経験する患者が経験しない患者よりも高い予測リスクを得る能力を指します。一方、較正は、予測された確率と観察された頻度との一致度を指します。モデルは識別能が優れていても較正が不十分な場合があるため、両方が重要です。
臨床予測モデルにとって外部検証が重要なのはなぜですか？: モデルは、構築に使用されたデータに対して楽観的な性能を示すことがよくあります。独立した集団や設定でテストすることで、モデルがどれだけ一般化できるかが明らかになり、症例構成や記録が開発データと異なる場合に機能しないツールが展開されるのを防ぐことができます。