Cơ sở dữ liệu phân tán và song song
Cơ sở dữ liệu phân tán và song song trải rộng dữ liệu và xử lý truy vấn trên nhiều máy để đạt được khả năng mở rộng, tính sẵn sàng và hiệu suất cao, đồng thời duy trì một cái nhìn nhất quán về dữ liệu.
Definition
Cơ sở dữ liệu phân tán lưu trữ dữ liệu trên nhiều địa điểm mạng xuất hiện với người dùng như một cơ sở dữ liệu duy nhất, và cơ sở dữ liệu song song sử dụng nhiều bộ xử lý và đĩa (thường là không chia sẻ) để thực hiện các thao tác cơ sở dữ liệu đồng thời nhằm đạt được thông lượng cao hơn và độ trễ thấp hơn.
Scope
Lĩnh vực này bao gồm việc quản lý dữ liệu trên nhiều nút: cách dữ liệu được phân vùng (phân mảnh) và nhân bản; cách các truy vấn được xử lý song song trên các phân vùng và trên các địa điểm phân tán; và cách các giao dịch cam kết nguyên tử và các bản sao duy trì tính nhất quán thông qua các giao thức cam kết và đồng thuận. Nó đề cập đến sự khác biệt về kiến trúc giữa cơ sở dữ liệu song song không chia sẻ và cơ sở dữ liệu phân tán địa lý. Đây là phần bổ sung dành riêng cho cơ sở dữ liệu đối với các chủ đề điện toán phân tán nói chung, mà nó trích dẫn nhưng không trùng lặp; nó loại trừ lý thuyết đồng thuận và hệ thống phân tán nói chung ngoài việc sử dụng chúng trong cơ sở dữ liệu.
Sub-topics
Core questions
- Dữ liệu được phân vùng và nhân bản trên các nút như thế nào, và tại sao?
- Các truy vấn được thực thi song song trên các phân vùng và địa điểm như thế nào?
- Một giao dịch được cam kết nguyên tử như thế nào khi nó trải rộng trên nhiều nút?
- Các bản sao duy trì tính nhất quán như thế nào khi có lỗi?
- Thiết kế song song (không chia sẻ) và phân tán địa lý khác nhau như thế nào?
Key concepts
- phân mảnh ngang và dọc
- nhân bản
- kiến trúc không chia sẻ
- song song hóa phân vùng và đường ống
- xử lý truy vấn phân tán
- cam kết hai pha
- đồng thuận và tính nhất quán của bản sao
- tăng tốc và mở rộng
Key theories
- Phân vùng và nhân bản dữ liệu
- Các bảng được phân mảnh ngang hoặc dọc và phân phối trên các nút để mở rộng quy mô, và các bản sao được nhân bản để đảm bảo tính sẵn sàng và hiệu suất đọc; chiến lược đặt vị trí xác định sự cân bằng tải và khả năng chịu lỗi.
- Xử lý truy vấn song song
- Các cơ sở dữ liệu song song không chia sẻ đạt được tốc độ tăng gần như tuyến tính và khả năng mở rộng bằng cách phân vùng dữ liệu và thực thi các toán tử như quét và nối song song trên các nút, khai thác song song hóa phân vùng và đường ống.
- Cam kết phân tán và tính nhất quán của bản sao
- Các giao thức cam kết nguyên tử như cam kết hai pha đảm bảo kết quả tất cả hoặc không có gì trên các địa điểm, và các giao thức đồng thuận và nhân bản giữ cho các bản sao nhất quán bất chấp lỗi nút và mạng.
Clinical relevance
Cơ sở dữ liệu phân tán và song song là những gì cho phép các hệ thống dữ liệu mở rộng quy mô để xử lý khối lượng công việc internet: các kho dữ liệu song song chạy phân tích trên petabyte, các cơ sở dữ liệu phân tán địa lý giữ cho các dịch vụ toàn cầu luôn sẵn sàng và có độ trễ thấp, và các kỹ thuật phân vùng, nhân bản và cam kết ở đây là nền tảng cho hầu hết mọi nền tảng dữ liệu quy mô lớn.
History
Nghiên cứu về cơ sở dữ liệu phân tán bắt đầu vào cuối những năm 1970 với các hệ thống như SDD-1 và Ingres phân tán. Những năm 1980 chứng kiến các cơ sở dữ liệu song song không chia sẻ (Gamma, Teradata) mà DeWitt và Gray đã lập luận vào năm 1992 là tương lai của quản lý dữ liệu hiệu suất cao. Nhu cầu quy mô internet sau đó đã thúc đẩy các hệ thống phân vùng, nhân bản định hình các nền tảng dữ liệu đám mây hiện đại.
Key figures
- M. Tamer Özsu
- Patrick Valduriez
- David DeWitt
- Jim Gray
Related topics
Seminal works
- ozsu2011
- dewitt1992
- silberschatz2019
Frequently asked questions
- Sự khác biệt giữa cơ sở dữ liệu phân tán và cơ sở dữ liệu song song là gì?
- Cơ sở dữ liệu song song sử dụng nhiều bộ xử lý và đĩa được kết nối chặt chẽ, thường ở một vị trí với kết nối nhanh (thường là một cụm không chia sẻ), để chạy các truy vấn nhanh hơn. Cơ sở dữ liệu phân tán trải rộng dữ liệu trên các địa điểm riêng biệt, thường phân tán về mặt địa lý để đảm bảo tính sẵn sàng và cục bộ. Ranh giới có thể mờ nhạt, nhưng cơ sở dữ liệu song song nhấn mạnh hiệu suất và cơ sở dữ liệu phân tán nhấn mạnh sự phân tán và tính tự chủ.
- Tại sao kiến trúc không chia sẻ lại là kiến trúc song song chiếm ưu thế?
- Trong thiết kế không chia sẻ, mỗi nút có CPU, bộ nhớ và đĩa riêng, vì vậy không có tài nguyên trung tâm nào trở thành nút thắt cổ chai khi thêm các nút. Điều này cho phép hệ thống đạt được tốc độ tăng gần như tuyến tính và khả năng mở rộng, đó là lý do tại sao nó trở thành kiến trúc tiêu chuẩn cho các cơ sở dữ liệu song song và phân tích có khả năng mở rộng.