Almacenamiento de Datos y OLAP
El almacenamiento de datos consolida información de múltiples fuentes en un repositorio optimizado para consultas analíticas, y el procesamiento analítico en línea (OLAP) proporciona el modelo multidimensional y las operaciones que permiten a los analistas explorar esos datos de forma interactiva.
Definition
Un almacén de datos es un repositorio consolidado y optimizado para consultas de datos históricos integrados, extraídos de múltiples fuentes operativas para su análisis; OLAP es la tecnología que organiza dichos datos en un modelo multidimensional y soporta consultas agregadas rápidas y exploración interactiva.
Scope
Este tema abarca el aspecto analítico de la gestión de datos: el almacén de datos como un repositorio integrado y orientado a un tema, separado de los sistemas operativos; el proceso de extracción, transformación y carga (ETL) que lo alimenta; el modelado dimensional con esquemas de estrella y copo de nieve de hechos y dimensiones; el cubo de datos multidimensional y las operaciones OLAP (consolidación, desglose, corte, segmentación, pivote); y el contraste entre las cargas de trabajo analíticas (OLAP) y transaccionales (OLTP). Se excluyen el control de concurrencia transaccional y los almacenes NoSQL generales, que son temas adyacentes.
Core questions
- ¿En qué se diferencia un almacén de datos de una base de datos operativa (OLTP)?
- ¿Qué es el modelado dimensional y cómo organizan los esquemas de estrella y copo de nieve los hechos y las dimensiones?
- ¿Cómo generaliza el cubo de datos la agrupación y soporta el análisis multidimensional?
- ¿Qué hacen las operaciones OLAP de consolidación, desglose, corte, segmentación y pivote?
- ¿Cómo se utiliza el proceso ETL para integrar y cargar datos en el almacén?
Key concepts
- almacén de datos
- extracción-transformación-carga (ETL)
- esquemas de estrella y copo de nieve
- tablas de hechos y dimensiones
- cubo de datos
- consolidación, desglose, corte, segmentación, pivote
- vistas materializadas
- OLAP versus OLTP
Key theories
- Modelado dimensional
- Los almacenes se modelan comúnmente con esquemas de estrella y copo de nieve en los que una tabla de hechos central de mediciones hace referencia a tablas de dimensiones circundantes (tiempo, producto, ubicación), optimizando las consultas agregadas y de lectura intensiva que ejecutan los analistas.
- El cubo de datos y las operaciones OLAP
- El operador de cubo de datos generaliza la agrupación para calcular agregados sobre todas las combinaciones de dimensiones, soportando la consolidación, el desglose, el corte, la segmentación y el pivote para el análisis multidimensional interactivo.
- Separación de OLAP de OLTP
- Las cargas de trabajo analíticas escanean y agregan grandes volúmenes de datos históricos, lo que difiere fundamentalmente de las actualizaciones transaccionales cortas, lo que motiva un almacén separado, integrado y optimizado para lectura, poblado por ETL desde sistemas operativos.
Clinical relevance
El almacenamiento de datos y OLAP son la base de la inteligencia empresarial: las organizaciones consolidan los datos operativos en almacenes y utilizan OLAP para analizar ventas, finanzas y operaciones a través de dimensiones como el tiempo, la región y el producto, lo que hace que estas tecnologías sean fundamentales para la toma de decisiones basada en datos.
History
El almacenamiento de datos surgió a principios de la década de 1990, cuando las organizaciones separaron las consultas analíticas de las bases de datos operativas; el enfoque de modelado dimensional de Kimball y el enfoque de almacén empresarial de Inmon dieron forma al campo. El operador de cubo de datos (Gray et al., 1997) formalizó la agregación multidimensional, y la visión general de Chaudhuri y Dayal de 1997 consolidó la tecnología de almacenamiento y OLAP que subyace a las plataformas analíticas modernas.
Key figures
- Surajit Chaudhuri
- Umeshwar Dayal
- Jim Gray
- Ralph Kimball
Related topics
Seminal works
- chaudhuri1997
- gray1997
- kimball2013
Frequently asked questions
- ¿Cuál es la diferencia entre OLAP y OLTP?
- OLTP (procesamiento de transacciones en línea) maneja muchas transacciones cortas de lectura-escritura, como realizar un pedido, con énfasis en la consistencia y las actualizaciones rápidas. OLAP (procesamiento analítico en línea) maneja consultas complejas de lectura intensiva que agregan grandes volúmenes de datos históricos para su análisis. Los almacenes están diseñados para OLAP y se mantienen separados de los sistemas OLTP que los alimentan.
- ¿Por qué usar un esquema de estrella en lugar de un diseño completamente normalizado?
- Las consultas analíticas suelen unir una tabla de hechos grande a varias tablas de dimensiones y agregar. Un esquema de estrella desnormaliza deliberadamente las dimensiones para minimizar las uniones y hacer que estas consultas agregadas sean rápidas e intuitivas. La redundancia que la normalización eliminaría es aceptable aquí porque el almacén se carga en bloque y se consulta mucho más de lo que se actualiza.