คลังข้อมูลและ OLAP
การทำคลังข้อมูลเป็นการรวบรวมข้อมูลจากหลายแหล่งมาจัดเก็บในรูปแบบที่เหมาะสมกับการสอบถามเพื่อการวิเคราะห์ และการประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) จะนำเสนอแบบจำลองหลายมิติและการดำเนินการที่ช่วยให้นักวิเคราะห์สามารถสำรวจข้อมูลเหล่านั้นได้อย่างโต้ตอบ
Definition
คลังข้อมูลคือแหล่งเก็บข้อมูลประวัติศาสตร์แบบรวมศูนย์ที่ได้รับการปรับให้เหมาะสมกับการสอบถาม ซึ่งรวบรวมข้อมูลจากแหล่งปฏิบัติการหลายแห่งเพื่อการวิเคราะห์; OLAP คือเทคโนโลยีที่จัดระเบียบข้อมูลดังกล่าวให้เป็นแบบจำลองหลายมิติ และสนับสนุนการสอบถามแบบรวมกลุ่มที่รวดเร็วและการสำรวจข้อมูลแบบโต้ตอบ
Scope
หัวข้อนี้ครอบคลุมด้านการวิเคราะห์ของการจัดการข้อมูล: คลังข้อมูลในฐานะแหล่งเก็บข้อมูลแบบบูรณาการที่เน้นหัวข้อเฉพาะและแยกต่างหากจากระบบปฏิบัติการ; กระบวนการสกัด-แปลง-โหลด (ETL) ที่ใช้ในการเติมข้อมูล; การสร้างแบบจำลองเชิงมิติด้วย Star Schema และ Snowflake Schema ของข้อเท็จจริงและมิติ; คิวบ์ข้อมูลหลายมิติและการดำเนินการของ OLAP (การรวมกลุ่ม, การเจาะลึก, การแบ่งส่วน, การหั่นย่อย, การหมุนแกน); และความแตกต่างระหว่างภาระงานเชิงวิเคราะห์ (OLAP) และเชิงธุรกรรม (OLTP) หัวข้อนี้ไม่รวมถึงการควบคุมการทำงานพร้อมกันของธุรกรรมและแหล่งเก็บข้อมูล NoSQL ทั่วไป ซึ่งเป็นหัวข้อที่เกี่ยวข้อง
Core questions
- คลังข้อมูลแตกต่างจากฐานข้อมูลปฏิบัติการ (OLTP) อย่างไร?
- การสร้างแบบจำลองเชิงมิติคืออะไร และ Star Schema กับ Snowflake Schema จัดระเบียบข้อเท็จจริงและมิติอย่างไร?
- คิวบ์ข้อมูลสรุปการจัดกลุ่มและสนับสนุนการวิเคราะห์หลายมิติได้อย่างไร?
- การดำเนินการของ OLAP ได้แก่ การรวมกลุ่ม (roll-up), การเจาะลึก (drill-down), การแบ่งส่วน (slice), การหั่นย่อย (dice) และการหมุนแกน (pivot) ทำอะไรบ้าง?
- กระบวนการ ETL ใช้ในการรวมและโหลดข้อมูลคลังข้อมูลอย่างไร?
Key concepts
- คลังข้อมูล
- การสกัด-แปลง-โหลด (ETL)
- Star Schema และ Snowflake Schema
- ตารางข้อเท็จจริงและตารางมิติ
- คิวบ์ข้อมูล
- การรวมกลุ่ม (roll-up), การเจาะลึก (drill-down), การแบ่งส่วน (slice), การหั่นย่อย (dice), การหมุนแกน (pivot)
- มุมมองที่สร้างขึ้นล่วงหน้า (materialized views)
- OLAP เทียบกับ OLTP
Key theories
- การสร้างแบบจำลองเชิงมิติ
- คลังข้อมูลมักจะถูกสร้างแบบจำลองด้วย Star Schema และ Snowflake Schema ซึ่งตารางข้อเท็จจริงกลางที่เก็บค่าการวัดจะอ้างอิงถึงตารางมิติที่อยู่รอบข้าง (เวลา, ผลิตภัณฑ์, สถานที่) เพื่อเพิ่มประสิทธิภาพสำหรับการสอบถามแบบรวมกลุ่มที่เน้นการอ่านซึ่งนักวิเคราะห์ใช้งาน
- คิวบ์ข้อมูลและการดำเนินการของ OLAP
- ตัวดำเนินการคิวบ์ข้อมูลสรุปการจัดกลุ่มเพื่อคำนวณค่ารวมในทุกการรวมกันของมิติ ซึ่งสนับสนุนการรวมกลุ่ม (roll-up), การเจาะลึก (drill-down), การแบ่งส่วน (slice), การหั่นย่อย (dice) และการหมุนแกน (pivot) สำหรับการวิเคราะห์หลายมิติแบบโต้ตอบ
- การแยก OLAP ออกจาก OLTP
- ภาระงานเชิงวิเคราะห์จะสแกนและรวมข้อมูลประวัติศาสตร์จำนวนมาก ซึ่งแตกต่างโดยพื้นฐานจากการอัปเดตธุรกรรมสั้นๆ ทำให้ต้องมีคลังข้อมูลที่แยกต่างหาก บูรณาการ และปรับให้เหมาะสมกับการอ่าน ซึ่งเติมข้อมูลโดย ETL จากระบบปฏิบัติการ
Clinical relevance
คลังข้อมูลและ OLAP เป็นรากฐานของระบบธุรกิจอัจฉริยะ: องค์กรต่างๆ รวบรวมข้อมูลการดำเนินงานเข้าสู่คลังข้อมูลและใช้ OLAP เพื่อวิเคราะห์ยอดขาย การเงิน และการดำเนินงานในมิติต่างๆ เช่น เวลา ภูมิภาค และผลิตภัณฑ์ ทำให้เทคโนโลยีเหล่านี้มีความสำคัญต่อการตัดสินใจที่ขับเคลื่อนด้วยข้อมูล
History
คลังข้อมูลเริ่มปรากฏขึ้นในช่วงต้นทศวรรษ 1990 เมื่อองค์กรต่างๆ แยกการสอบถามเชิงวิเคราะห์ออกจากฐานข้อมูลปฏิบัติการ; แนวทางการสร้างแบบจำลองเชิงมิติของ Kimball และแนวทางการสร้างคลังข้อมูลระดับองค์กรของ Inmon ได้กำหนดทิศทางของสาขาวิชานี้ ตัวดำเนินการคิวบ์ข้อมูล (Gray et al., 1997) ได้ทำให้การรวมกลุ่มหลายมิติเป็นทางการ และภาพรวมของ Chaudhuri และ Dayal ในปี 1997 ได้รวบรวมเทคโนโลยีคลังข้อมูลและ OLAP ที่เป็นรากฐานของแพลตฟอร์มการวิเคราะห์สมัยใหม่
Key figures
- Surajit Chaudhuri
- Umeshwar Dayal
- Jim Gray
- Ralph Kimball
Related topics
Seminal works
- chaudhuri1997
- gray1997
- kimball2013
Frequently asked questions
- ความแตกต่างระหว่าง OLAP และ OLTP คืออะไร?
- OLTP (online transaction processing) จัดการธุรกรรมการอ่าน-เขียนสั้นๆ จำนวนมาก เช่น การสั่งซื้อ โดยเน้นความสอดคล้องและการอัปเดตที่รวดเร็ว OLAP (online analytical processing) จัดการการสอบถามที่ซับซ้อนซึ่งส่วนใหญ่เป็นการอ่านและรวมข้อมูลประวัติศาสตร์จำนวนมากเพื่อการวิเคราะห์ คลังข้อมูลได้รับการออกแบบมาสำหรับ OLAP และแยกต่างหากจากระบบ OLTP ที่ป้อนข้อมูลให้
- ทำไมจึงใช้ Star Schema แทนการออกแบบที่ทำให้เป็นปกติอย่างสมบูรณ์?
- การสอบถามเชิงวิเคราะห์มักจะเชื่อมโยงตารางข้อเท็จจริงขนาดใหญ่กับตารางมิติหลายตารางและทำการรวมกลุ่ม Star Schema จงใจลดการทำให้เป็นปกติของมิติเพื่อลดการเชื่อมโยงและทำให้การสอบถามแบบรวมกลุ่มเหล่านี้รวดเร็วและใช้งานง่าย การซ้ำซ้อนที่การทำให้เป็นปกติจะกำจัดออกไปนั้นเป็นที่ยอมรับได้ในที่นี้ เนื่องจากคลังข้อมูลถูกโหลดเป็นจำนวนมากและถูกสอบถามมากกว่าที่จะถูกอัปเดต