ScholarGate
ผู้ช่วย

คลังข้อมูลและ OLAP

การทำคลังข้อมูลเป็นการรวบรวมข้อมูลจากหลายแหล่งมาจัดเก็บในรูปแบบที่เหมาะสมกับการสอบถามเพื่อการวิเคราะห์ และการประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) จะนำเสนอแบบจำลองหลายมิติและการดำเนินการที่ช่วยให้นักวิเคราะห์สามารถสำรวจข้อมูลเหล่านั้นได้อย่างโต้ตอบ

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

คลังข้อมูลคือแหล่งเก็บข้อมูลประวัติศาสตร์แบบรวมศูนย์ที่ได้รับการปรับให้เหมาะสมกับการสอบถาม ซึ่งรวบรวมข้อมูลจากแหล่งปฏิบัติการหลายแห่งเพื่อการวิเคราะห์; OLAP คือเทคโนโลยีที่จัดระเบียบข้อมูลดังกล่าวให้เป็นแบบจำลองหลายมิติ และสนับสนุนการสอบถามแบบรวมกลุ่มที่รวดเร็วและการสำรวจข้อมูลแบบโต้ตอบ

Scope

หัวข้อนี้ครอบคลุมด้านการวิเคราะห์ของการจัดการข้อมูล: คลังข้อมูลในฐานะแหล่งเก็บข้อมูลแบบบูรณาการที่เน้นหัวข้อเฉพาะและแยกต่างหากจากระบบปฏิบัติการ; กระบวนการสกัด-แปลง-โหลด (ETL) ที่ใช้ในการเติมข้อมูล; การสร้างแบบจำลองเชิงมิติด้วย Star Schema และ Snowflake Schema ของข้อเท็จจริงและมิติ; คิวบ์ข้อมูลหลายมิติและการดำเนินการของ OLAP (การรวมกลุ่ม, การเจาะลึก, การแบ่งส่วน, การหั่นย่อย, การหมุนแกน); และความแตกต่างระหว่างภาระงานเชิงวิเคราะห์ (OLAP) และเชิงธุรกรรม (OLTP) หัวข้อนี้ไม่รวมถึงการควบคุมการทำงานพร้อมกันของธุรกรรมและแหล่งเก็บข้อมูล NoSQL ทั่วไป ซึ่งเป็นหัวข้อที่เกี่ยวข้อง

Core questions

  • คลังข้อมูลแตกต่างจากฐานข้อมูลปฏิบัติการ (OLTP) อย่างไร?
  • การสร้างแบบจำลองเชิงมิติคืออะไร และ Star Schema กับ Snowflake Schema จัดระเบียบข้อเท็จจริงและมิติอย่างไร?
  • คิวบ์ข้อมูลสรุปการจัดกลุ่มและสนับสนุนการวิเคราะห์หลายมิติได้อย่างไร?
  • การดำเนินการของ OLAP ได้แก่ การรวมกลุ่ม (roll-up), การเจาะลึก (drill-down), การแบ่งส่วน (slice), การหั่นย่อย (dice) และการหมุนแกน (pivot) ทำอะไรบ้าง?
  • กระบวนการ ETL ใช้ในการรวมและโหลดข้อมูลคลังข้อมูลอย่างไร?

Key concepts

  • คลังข้อมูล
  • การสกัด-แปลง-โหลด (ETL)
  • Star Schema และ Snowflake Schema
  • ตารางข้อเท็จจริงและตารางมิติ
  • คิวบ์ข้อมูล
  • การรวมกลุ่ม (roll-up), การเจาะลึก (drill-down), การแบ่งส่วน (slice), การหั่นย่อย (dice), การหมุนแกน (pivot)
  • มุมมองที่สร้างขึ้นล่วงหน้า (materialized views)
  • OLAP เทียบกับ OLTP

Key theories

การสร้างแบบจำลองเชิงมิติ
คลังข้อมูลมักจะถูกสร้างแบบจำลองด้วย Star Schema และ Snowflake Schema ซึ่งตารางข้อเท็จจริงกลางที่เก็บค่าการวัดจะอ้างอิงถึงตารางมิติที่อยู่รอบข้าง (เวลา, ผลิตภัณฑ์, สถานที่) เพื่อเพิ่มประสิทธิภาพสำหรับการสอบถามแบบรวมกลุ่มที่เน้นการอ่านซึ่งนักวิเคราะห์ใช้งาน
คิวบ์ข้อมูลและการดำเนินการของ OLAP
ตัวดำเนินการคิวบ์ข้อมูลสรุปการจัดกลุ่มเพื่อคำนวณค่ารวมในทุกการรวมกันของมิติ ซึ่งสนับสนุนการรวมกลุ่ม (roll-up), การเจาะลึก (drill-down), การแบ่งส่วน (slice), การหั่นย่อย (dice) และการหมุนแกน (pivot) สำหรับการวิเคราะห์หลายมิติแบบโต้ตอบ
การแยก OLAP ออกจาก OLTP
ภาระงานเชิงวิเคราะห์จะสแกนและรวมข้อมูลประวัติศาสตร์จำนวนมาก ซึ่งแตกต่างโดยพื้นฐานจากการอัปเดตธุรกรรมสั้นๆ ทำให้ต้องมีคลังข้อมูลที่แยกต่างหาก บูรณาการ และปรับให้เหมาะสมกับการอ่าน ซึ่งเติมข้อมูลโดย ETL จากระบบปฏิบัติการ

Clinical relevance

คลังข้อมูลและ OLAP เป็นรากฐานของระบบธุรกิจอัจฉริยะ: องค์กรต่างๆ รวบรวมข้อมูลการดำเนินงานเข้าสู่คลังข้อมูลและใช้ OLAP เพื่อวิเคราะห์ยอดขาย การเงิน และการดำเนินงานในมิติต่างๆ เช่น เวลา ภูมิภาค และผลิตภัณฑ์ ทำให้เทคโนโลยีเหล่านี้มีความสำคัญต่อการตัดสินใจที่ขับเคลื่อนด้วยข้อมูล

History

คลังข้อมูลเริ่มปรากฏขึ้นในช่วงต้นทศวรรษ 1990 เมื่อองค์กรต่างๆ แยกการสอบถามเชิงวิเคราะห์ออกจากฐานข้อมูลปฏิบัติการ; แนวทางการสร้างแบบจำลองเชิงมิติของ Kimball และแนวทางการสร้างคลังข้อมูลระดับองค์กรของ Inmon ได้กำหนดทิศทางของสาขาวิชานี้ ตัวดำเนินการคิวบ์ข้อมูล (Gray et al., 1997) ได้ทำให้การรวมกลุ่มหลายมิติเป็นทางการ และภาพรวมของ Chaudhuri และ Dayal ในปี 1997 ได้รวบรวมเทคโนโลยีคลังข้อมูลและ OLAP ที่เป็นรากฐานของแพลตฟอร์มการวิเคราะห์สมัยใหม่

Key figures

  • Surajit Chaudhuri
  • Umeshwar Dayal
  • Jim Gray
  • Ralph Kimball

Related topics

Seminal works

  • chaudhuri1997
  • gray1997
  • kimball2013

Frequently asked questions

ความแตกต่างระหว่าง OLAP และ OLTP คืออะไร?
OLTP (online transaction processing) จัดการธุรกรรมการอ่าน-เขียนสั้นๆ จำนวนมาก เช่น การสั่งซื้อ โดยเน้นความสอดคล้องและการอัปเดตที่รวดเร็ว OLAP (online analytical processing) จัดการการสอบถามที่ซับซ้อนซึ่งส่วนใหญ่เป็นการอ่านและรวมข้อมูลประวัติศาสตร์จำนวนมากเพื่อการวิเคราะห์ คลังข้อมูลได้รับการออกแบบมาสำหรับ OLAP และแยกต่างหากจากระบบ OLTP ที่ป้อนข้อมูลให้
ทำไมจึงใช้ Star Schema แทนการออกแบบที่ทำให้เป็นปกติอย่างสมบูรณ์?
การสอบถามเชิงวิเคราะห์มักจะเชื่อมโยงตารางข้อเท็จจริงขนาดใหญ่กับตารางมิติหลายตารางและทำการรวมกลุ่ม Star Schema จงใจลดการทำให้เป็นปกติของมิติเพื่อลดการเชื่อมโยงและทำให้การสอบถามแบบรวมกลุ่มเหล่านี้รวดเร็วและใช้งานง่าย การซ้ำซ้อนที่การทำให้เป็นปกติจะกำจัดออกไปนั้นเป็นที่ยอมรับได้ในที่นี้ เนื่องจากคลังข้อมูลถูกโหลดเป็นจำนวนมากและถูกสอบถามมากกว่าที่จะถูกอัปเดต

Methods for this concept

Related concepts