Diseño y Arquitectura de Almacenes de Datos Clínicos
Un almacén de datos clínicos es un repositorio integrado y orientado a consultas que consolida datos de las fuentes transaccionales de un sistema de salud para que puedan ser analizados sin interrumpir los sistemas de atención operativa. Su diseño y arquitectura determinan cómo se extraen, modelan y exponen los datos de origen para la investigación, la medición de la calidad y la elaboración de informes operativos.
Definition
El diseño de un almacén de datos clínicos es la arquitectura e ingeniería de repositorios integrados que consolidan datos de salud de múltiples fuentes operativas en una estructura optimizada para la consulta, el análisis y la reutilización, en lugar de para la atención transaccional.
Scope
Este tema cubre los patrones arquitectónicos detrás de los almacenes de datos clínicos: la separación de los sistemas analíticos de los transaccionales, las tuberías de extracción, transformación y carga (ETL), el modelado dimensional versus el normalizado, y el uso de modelos de datos comunes para hacer que las consultas sean portátiles. Trata el diseño del almacén como un tema de informática e ingeniería de datos, no como instrucciones operativas para una plataforma específica.
Key concepts
- Separación de cargas de trabajo analíticas y transaccionales (OLAP vs OLTP)
- Tuberías de extracción, transformación y carga (ETL)
- Modelado dimensional (esquemas en estrella y copo de nieve)
- Diseño de almacén empresarial normalizado (tercera forma normal)
- Modelos de datos comunes
- Data marts
- Metadatos y linaje de datos
- Dimensiones de cambio lento
Mechanisms
Los sistemas operativos, como los registros electrónicos de salud, están optimizados para transacciones individuales rápidas, lo que los hace poco adecuados para grandes consultas analíticas. Un almacén de datos clínicos aborda esto extrayendo periódicamente datos de esas fuentes, transformándolos y limpiándolos, y cargándolos en un repositorio separado estructurado para el análisis. Dos tradiciones de diseño influyentes informan la capa de modelado: el enfoque de almacén empresarial normalizado asociado con Inmon, y el enfoque de esquema en estrella dimensional asociado con Kimball, que organiza los datos en tablas de hechos y dimensiones para una agregación eficiente. En entornos de investigación, plataformas como i2b2 organizan los datos de los pacientes en torno a un esquema en estrella y una ontología controlada para que los investigadores puedan consultar cohortes. La asignación del almacén a un modelo de datos común permite que la misma consulta se ejecute en diferentes instituciones.
Clinical relevance
La arquitectura de un almacén de datos clínicos determina qué análisis son factibles y con qué fiabilidad se pueden identificar las cohortes, lo que a su vez afecta la medición de la calidad y la investigación que informa la atención. Comprender el diseño del almacén ayuda a los usuarios a interpretar de dónde provienen los datos analíticos y qué transformaciones han sufrido. Esta es una descripción de referencia de la infraestructura y no proporciona orientación clínica individual.
History
El almacenamiento de datos (data warehousing) surgió en los sistemas de información generales a finales del siglo XX, con el modelo empresarial normalizado de Inmon y el modelo dimensional de Kimball enmarcando el principal debate de diseño. La atención médica adoptó estos patrones a medida que los registros electrónicos acumulaban datos reutilizables; plataformas orientadas a la investigación como i2b2 en 2010 demostraron arquitecturas de almacén adaptadas al descubrimiento de cohortes clínicas, y los modelos de datos comunes estandarizaron posteriormente las consultas interinstitucionales.
Debates
- Almacén empresarial normalizado versus modelado dimensional
- Los diseñadores difieren sobre si construir un almacén empresarial normalizado e integrado (la tradición de Inmon) del cual se derivan los data marts, o construir directamente data marts dimensionales con esquema en estrella (la tradición de Kimball); la elección implica una compensación entre la integración y la flexibilidad frente a la simplicidad y velocidad de la consulta.
Key figures
- William H. Inmon
- Ralph Kimball
- Shawn N. Murphy
- Isaac Kohane
Related topics
Seminal works
- inmon-2005
- kimball-ross-2013
- murphy-2010
Frequently asked questions
- ¿Por qué no ejecutar los análisis directamente en la base de datos del registro electrónico de salud?
- Los sistemas transaccionales están optimizados para muchas lecturas y escrituras pequeñas que soportan la atención en vivo, por lo que las grandes consultas analíticas pueden ralentizarlos y correr el riesgo de afectar las operaciones clínicas. Un almacén de datos separa el análisis de la prestación de atención y estructura los datos para una consulta eficiente.
- ¿Qué es un modelo de datos común y por qué es importante para el diseño de un almacén?
- Un modelo de datos común es un esquema y vocabulario compartido que múltiples instituciones adoptan para sus almacenes. La asignación a este modelo permite que la misma consulta analítica se ejecute en diferentes sitios sin necesidad de reescribirla, lo que apoya la investigación multiinstitucional y la reproducibilidad.