Projeto e Arquitetura de Data Warehouse Clínico
Um data warehouse clínico é um repositório integrado e orientado a consultas que consolida dados de fontes transacionais de um sistema de saúde para que possam ser analisados sem interromper os sistemas operacionais de atendimento. Seu projeto e arquitetura determinam como os dados de origem são extraídos, modelados e expostos para pesquisa, medição de qualidade e relatórios operacionais.
Definition
O projeto de data warehouse clínico é a arquitetura e a engenharia de repositórios integrados que consolidam dados de saúde de múltiplas fontes operacionais em uma estrutura otimizada para consulta, análise e reuso, em vez de para atendimento transacional.
Scope
Este tópico aborda os padrões arquitetônicos por trás dos data warehouses clínicos: a separação de sistemas analíticos de transacionais, pipelines de extração-transformação-carga (ETL), modelagem dimensional versus normalizada e o uso de modelos de dados comuns para tornar as consultas portáteis. Ele trata o projeto de warehouse como um tópico de informática e engenharia de dados, não como instruções operacionais para qualquer plataforma específica.
Key concepts
- Separação de cargas de trabalho analíticas e transacionais (OLAP vs OLTP)
- Pipelines de extração-transformação-carga (ETL)
- Modelagem dimensional (esquemas em estrela e floco de neve)
- Projeto de warehouse empresarial normalizado (terceira forma normal)
- Modelos de dados comuns
- Data marts
- Metadados e linhagem de dados
- Dimensões que mudam lentamente
Mechanisms
Sistemas operacionais, como prontuários eletrônicos, são otimizados para transações individuais rápidas, o que os torna pouco adequados para grandes consultas analíticas. Um data warehouse clínico aborda isso extraindo periodicamente dados dessas fontes, transformando-os e limpando-os, e carregando-os em um repositório separado estruturado para análise. Duas tradições de design influentes informam a camada de modelagem: a abordagem de warehouse empresarial normalizado associada a Inmon, e a abordagem de esquema em estrela dimensional associada a Kimball, que organiza os dados em tabelas de fatos e dimensões para agregação eficiente. Em ambientes de pesquisa, plataformas como i2b2 organizam dados de pacientes em torno de um esquema em estrela e uma ontologia controlada para que os investigadores possam consultar coortes. Mapear o warehouse para um modelo de dados comum permite que a mesma consulta seja executada em diferentes instituições.
Clinical relevance
A arquitetura de um data warehouse clínico molda quais análises são viáveis e quão confiavelmente as coortes podem ser identificadas, o que, por sua vez, afeta a medição da qualidade e a pesquisa que informa o cuidado. Compreender o projeto do warehouse ajuda os usuários a interpretar a origem dos dados analíticos e as transformações pelas quais passaram. Esta é uma descrição de referência de infraestrutura e não fornece orientação clínica individual.
History
O data warehousing surgiu em sistemas de informação gerais no final do século XX, com o modelo empresarial normalizado de Inmon e o modelo dimensional de Kimball enquadrando o principal debate de design. A área da saúde adotou esses padrões à medida que os registros eletrônicos acumulavam dados reutilizáveis; plataformas orientadas à pesquisa, como o i2b2 em 2010, demonstraram arquiteturas de warehouse adaptadas à descoberta de coortes clínicas, e modelos de dados comuns padronizaram posteriormente a consulta entre instituições.
Debates
- Warehouse empresarial normalizado versus modelagem dimensional
- Os projetistas divergem sobre se devem construir um warehouse empresarial normalizado e integrado (a tradição Inmon) a partir do qual os data marts são derivados, ou construir diretamente data marts dimensionais com esquema em estrela (a tradição Kimball); a escolha envolve um trade-off entre integração e flexibilidade versus simplicidade e velocidade de consulta.
Key figures
- William H. Inmon
- Ralph Kimball
- Shawn N. Murphy
- Isaac Kohane
Related topics
Seminal works
- inmon-2005
- kimball-ross-2013
- murphy-2010
Frequently asked questions
- Por que não executar análises diretamente no banco de dados do prontuário eletrônico?
- Sistemas transacionais são ajustados para muitas pequenas leituras e gravações que suportam o atendimento em tempo real, então grandes consultas analíticas podem desacelerá-los e arriscar afetar as operações clínicas. Um data warehouse separa a análise da prestação de cuidados e estrutura os dados para consultas eficientes.
- O que é um modelo de dados comum e por que ele é importante para o projeto de warehouse?
- Um modelo de dados comum é um esquema e vocabulário compartilhados que múltiplas instituições adotam para seus warehouses. O mapeamento para ele permite que a mesma consulta analítica seja executada em diferentes locais sem reescrita, o que apoia a pesquisa multi-institucional e a reprodutibilidade.