Data Warehousing e OLAP
O data warehousing consolida dados de diversas fontes em um armazenamento otimizado para consultas e análises, e o processamento analítico online (OLAP) fornece o modelo multidimensional e as operações que permitem aos analistas explorar esses dados interativamente.
Definition
Um data warehouse é um repositório consolidado, otimizado para consultas, de dados históricos integrados, extraídos de múltiplas fontes operacionais para análise; OLAP é a tecnologia que organiza esses dados em um modelo multidimensional e suporta consultas agregadas rápidas e exploração interativa.
Scope
Este tópico aborda o lado analítico da gestão de dados: o data warehouse como um armazenamento integrado, orientado por assunto e separado dos sistemas operacionais; o pipeline de extração-transformação-carga (ETL) que o preenche; a modelagem dimensional com esquemas estrela e floco de neve de fatos e dimensões; o cubo de dados multidimensional e as operações OLAP (roll-up, drill-down, slice, dice, pivot); e o contraste entre cargas de trabalho analíticas (OLAP) e transacionais (OLTP). Exclui o controle de concorrência transacional e os armazenamentos NoSQL gerais, que são tópicos adjacentes.
Core questions
- Como um data warehouse difere de um banco de dados operacional (OLTP)?
- O que é modelagem dimensional e como os esquemas estrela e floco de neve organizam fatos e dimensões?
- Como o cubo de dados generaliza o agrupamento (group-by) e suporta a análise multidimensional?
- O que fazem as operações OLAP roll-up, drill-down, slice, dice e pivot?
- Como o processo ETL é usado para integrar e carregar dados do warehouse?
Key concepts
- data warehouse
- extração-transformação-carga (ETL)
- esquemas estrela e floco de neve
- tabelas de fatos e dimensões
- cubo de dados
- roll-up, drill-down, slice, dice, pivot
- visões materializadas
- OLAP versus OLTP
Key theories
- Modelagem dimensional
- Os warehouses são comumente modelados com esquemas estrela e floco de neve, nos quais uma tabela de fatos central de medições referencia tabelas de dimensão circundantes (tempo, produto, localização), otimizando para as consultas agregadas e de leitura intensiva que os analistas executam.
- O cubo de dados e as operações OLAP
- O operador de cubo de dados generaliza o agrupamento (group-by) para calcular agregados sobre todas as combinações de dimensões, suportando roll-up, drill-down, slice, dice e pivot para análise multidimensional interativa.
- Separação de OLAP de OLTP
- As cargas de trabalho analíticas escaneiam e agregam grandes volumes de dados históricos, o que difere fundamentalmente das atualizações transacionais curtas, motivando um warehouse separado, integrado e otimizado para leitura, preenchido por ETL a partir de sistemas operacionais.
Clinical relevance
O data warehousing e o OLAP são a base da inteligência de negócios: as organizações consolidam dados operacionais em warehouses e usam OLAP para analisar vendas, finanças e operações em dimensões como tempo, região e produto, tornando essas tecnologias centrais para a tomada de decisões baseada em dados.
History
O data warehousing surgiu no início da década de 1990, quando as organizações separaram as consultas analíticas dos bancos de dados operacionais; a abordagem de modelagem dimensional de Kimball e a abordagem de enterprise-warehouse de Inmon moldaram o campo. O operador de cubo de dados (Gray et al., 1997) formalizou a agregação multidimensional, e a visão geral de Chaudhuri e Dayal de 1997 consolidou a tecnologia de warehousing e OLAP que sustenta as plataformas de análise modernas.
Key figures
- Surajit Chaudhuri
- Umeshwar Dayal
- Jim Gray
- Ralph Kimball
Related topics
Seminal works
- chaudhuri1997
- gray1997
- kimball2013
Frequently asked questions
- Qual a diferença entre OLAP e OLTP?
- OLTP (online transaction processing) lida com muitas transações curtas de leitura-escrita, como fazer um pedido, com ênfase na consistência e atualizações rápidas. OLAP (online analytical processing) lida com consultas complexas predominantemente de leitura que agregam grandes volumes de dados históricos para análise. Os warehouses são projetados para OLAP e são mantidos separados dos sistemas OLTP que os alimentam.
- Por que usar um esquema estrela em vez de um design totalmente normalizado?
- Consultas analíticas geralmente unem uma grande tabela de fatos a várias tabelas de dimensão e agregam. Um esquema estrela desnormaliza deliberadamente as dimensões para minimizar as junções e tornar essas consultas agregadas rápidas e intuitivas. A redundância que a normalização removeria é aceitável aqui porque o warehouse é carregado em massa e consultado muito mais do que atualizado.