临床数据仓库设计与架构
临床数据仓库是一个集成化的、面向查询的存储库,它整合了卫生系统事务性数据源的数据,以便在不干扰操作性护理系统的情况下进行分析。其设计和架构决定了如何提取、建模和展示源数据,以用于研究、质量测量和运营报告。
Definition
临床数据仓库设计是指集成存储库的架构和工程,这些存储库将来自多个操作源的健康数据整合到一个结构中,该结构经过优化,用于查询、分析和重用,而非用于事务性护理。
Scope
本主题涵盖了临床数据仓库背后的架构模式:分析系统与事务性系统的分离、提取-转换-加载(ETL)管道、维度建模与规范化建模,以及使用通用数据模型使查询可移植。它将仓库设计视为一个信息学和数据工程主题,而非任何特定平台的操作说明。
Key concepts
- 分析和事务性(OLAP vs OLTP)工作负载的分离
- 提取-转换-加载(ETL)管道
- 维度建模(星型和雪花型模式)
- 规范化(第三范式)企业仓库设计
- 通用数据模型
- 数据集市
- 元数据和数据沿袭
- 缓慢变化的维度
Mechanisms
电子健康记录等操作性系统针对快速的个体事务进行了优化,这使得它们不适合进行大型分析查询。临床数据仓库通过定期从这些源中提取数据,对其进行转换和清理,并将其加载到为分析而构建的独立存储库中来解决这个问题。两种有影响力的设计传统为建模层提供了信息:与Inmon相关的规范化企业仓库方法,以及与Kimball相关的维度星型模式方法,后者将数据组织成事实表和维度表以实现高效聚合。在研究环境中,i2b2等平台围绕星型模式和受控本体组织患者数据,以便研究人员可以查询队列。将仓库映射到通用数据模型可以使相同的查询跨机构运行。
Clinical relevance
临床数据仓库的架构决定了哪些分析是可行的,以及队列识别的可靠性,这反过来又影响了质量测量和指导护理的研究。理解仓库设计有助于用户解释分析数据的来源以及它们所经历的转换。这是对基础设施的参考描述,不提供个体临床指导。
History
数据仓库在20世纪末的通用信息系统中出现,Inmon的规范化企业模型和Kimball的维度模型构成了主要的设计争论。随着电子记录积累了可重用数据,医疗保健领域采用了这些模式;2010年,i2b2等面向研究的平台展示了为临床队列发现量身定制的仓库架构,后来通用数据模型标准化了跨机构查询。
Debates
- 规范化企业仓库与维度建模的争论
- 设计者对于是构建一个规范化的、集成的企业仓库(Inmon传统)并从中派生数据集市,还是直接构建维度星型模式数据集市(Kimball传统)存在分歧;这种选择需要在集成度和灵活性与查询的简易性和速度之间进行权衡。
Key figures
- William H. Inmon
- Ralph Kimball
- Shawn N. Murphy
- Isaac Kohane
Related topics
Seminal works
- inmon-2005
- kimball-ross-2013
- murphy-2010
Frequently asked questions
- 为什么不直接在电子健康记录数据库上运行分析?
- 事务性系统针对支持实时护理的许多小型读写操作进行了调整,因此大型分析查询可能会减慢它们的速度,并可能影响临床操作。数据仓库将分析与护理交付分离,并为高效查询构建数据结构。
- 什么是通用数据模型?它对仓库设计为何重要?
- 通用数据模型是多个机构为其仓库采用的共享模式和词汇表。将其映射到通用数据模型可以使相同的分析查询在不同站点运行而无需重写,这支持了多机构研究和可重复性。