臨床データウェアハウスの設計とアーキテクチャ
臨床データウェアハウスは、医療システムのトランザクションソースからのデータを統合し、クエリ指向のリポジトリとして集約することで、運用中のケアシステムを中断することなく分析を可能にします。その設計とアーキテクチャは、ソースデータがどのように抽出され、モデル化され、研究、品質測定、および運用レポートのために公開されるかを決定します。
Definition
臨床データウェアハウスの設計とは、複数の運用ソースからの医療データを、トランザクションケアのためではなく、クエリ、分析、および再利用のために最適化された構造に統合するリポジトリのアーキテクチャとエンジニアリングを指します。
Scope
このトピックでは、臨床データウェアハウスの背後にあるアーキテクチャパターンについて説明します。分析システムとトランザクションシステムの分離、抽出-変換-ロード(ETL)パイプライン、ディメンショナルモデリングと正規化モデリング、およびクエリの移植性を高めるための共通データモデルの使用について扱います。ウェアハウスの設計を情報学およびデータエンジニアリングのトピックとして扱い、特定のプラットフォームの運用手順としては扱いません。
Key concepts
- 分析ワークロードとトランザクションワークロードの分離(OLAP vs OLTP)
- 抽出-変換-ロード(ETL)パイプライン
- ディメンショナルモデリング(スター・スキーマとスノーフレーク・スキーマ)
- 正規化された(第三正規形)エンタープライズウェアハウス設計
- 共通データモデル
- データマート
- メタデータとデータリネージ
- 緩やかに変化するディメンション
Mechanisms
電子カルテなどの運用システムは、高速な個別のトランザクションに最適化されており、大規模な分析クエリには不向きです。臨床データウェアハウスは、これらのソースからデータを定期的に抽出し、変換・クレンジングし、分析用に構造化された別のリポジトリにロードすることで、この問題に対処します。モデリング層には、Inmonに関連する正規化されたエンタープライズウェアハウスアプローチと、Kimballに関連するディメンショナルスター・スキーマアプローチという2つの影響力のある設計伝統があります。後者は、効率的な集計のためにデータをファクトテーブルとディメンションテーブルに整理します。研究環境では、i2b2などのプラットフォームが、スター・スキーマと統制されたオントロジーに基づいて患者データを整理し、研究者がコホートをクエリできるようにしています。ウェアハウスを共通データモデルにマッピングすることで、同じクエリを複数の機関で実行できるようになります。
Clinical relevance
臨床データウェアハウスのアーキテクチャは、どのような分析が可能であるか、またコホートをどの程度確実に特定できるかを形成し、それがケアに情報を提供する品質測定と研究に影響を与えます。ウェアハウスの設計を理解することは、ユーザーが分析データがどこから来て、どのような変換を受けたかを解釈するのに役立ちます。これはインフラストラクチャの参照説明であり、個別の臨床的ガイダンスを提供するものではありません。
History
データウェアハウジングは、20世紀後半に一般的な情報システムで登場し、Inmonの正規化されたエンタープライズモデルとKimballのディメンショナルモデルが主要な設計論争を形成しました。医療分野では、電子記録が再利用可能なデータを蓄積するにつれてこれらのパターンが採用され、2010年にはi2b2のような研究指向のプラットフォームが臨床コホート発見に特化したウェアハウスアーキテクチャを示し、その後、共通データモデルが機関横断的なクエリを標準化しました。
Debates
- 正規化されたエンタープライズウェアハウス対ディメンショナルモデリング
- 設計者は、データマートが派生する正規化された統合エンタープライズウェアハウス(Inmonの伝統)を構築するか、ディメンショナルスター・スキーママートを直接構築するか(Kimballの伝統)について意見が分かれます。この選択は、統合と柔軟性をクエリの単純さと速度とトレードオフします。
Key figures
- William H. Inmon
- Ralph Kimball
- Shawn N. Murphy
- Isaac Kohane
Related topics
Seminal works
- inmon-2005
- kimball-ross-2013
- murphy-2010
Frequently asked questions
- なぜ電子カルテデータベースで直接分析を実行しないのですか?
- トランザクションシステムは、ライブケアをサポートする多くの小さな読み書きに調整されているため、大規模な分析クエリはそれらを遅くし、臨床業務に影響を与えるリスクがあります。データウェアハウスは、分析をケア提供から分離し、効率的なクエリのためにデータを構造化します。
- 共通データモデルとは何ですか、またウェアハウス設計にとってなぜ重要なのでしょうか?
- 共通データモデルとは、複数の機関がウェアハウスに採用する共有スキーマと語彙のことです。これにマッピングすることで、同じ分析クエリを書き換えなしで複数のサイトで実行でき、多施設研究と再現性をサポートします。