ScholarGate
Trợ lý

Mô tả dữ liệu và Thống kê tóm tắt

Mô tả dữ liệu và thống kê tóm tắt là một phần của thống kê sinh học liên quan đến việc tổ chức, cô đọng và trình bày một tập hợp các quan sát để có thể nắm bắt được các đặc điểm thiết yếu của chúng một cách nhanh chóng. Trước khi thực hiện bất kỳ suy luận nào, các nhà nghiên cứu mô tả cách dữ liệu được phân phối, vị trí trung tâm của chúng, mức độ phân tán rộng rãi của chúng và hình dạng mà chúng có, bằng cách sử dụng các tóm tắt số và biểu đồ.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics
Tools & resources
Tải xuống bản trình chiếu
Learn & explore
VideoSắp ra mắt

Definition

Mô tả dữ liệu và thống kê tóm tắt bao gồm các phương pháp số và đồ họa được sử dụng để mô tả vị trí trung tâm, độ phân tán, hình dạng phân phối và cấu trúc của một tập dữ liệu, trước và độc lập với việc khái quát hóa suy luận cho một quần thể.

Scope

Lĩnh vực này định hướng cho người đọc về khía cạnh mô tả của thống kê sinh học: thống kê mô tả nói chung, phân phối và tính chuẩn của dữ liệu, các thước đo xu hướng trung tâm, các thước đo biến thiên và trực quan hóa dữ liệu. Đây là một tổng quan tham khảo về cách dữ liệu sức khỏe được tóm tắt, không phải là một chỉ dẫn cho phân tích hoặc hành động lâm sàng.

Sub-topics

Core questions

  • Trung tâm của dữ liệu nằm ở đâu, và thước đo vị trí nào thể hiện nó tốt nhất?
  • Các quan sát biến đổi bao nhiêu, và sự phân tán đó được định lượng như thế nào?
  • Hình dạng của phân phối là gì, và nó có gần như chuẩn không?
  • Dữ liệu có thể được hiển thị như thế nào để mẫu hình, độ lệch và các giá trị ngoại lai của nó có thể nhìn thấy được?

Key concepts

  • Thống kê mô tả so với thống kê suy luận
  • Các thước đo xu hướng trung tâm (trung bình, trung vị, mode)
  • Các thước đo biến thiên (khoảng biến thiên, phương sai, độ lệch chuẩn, khoảng tứ phân vị)
  • Hình dạng phân phối, độ lệch và độ nhọn
  • Tính chuẩn và đánh giá của nó
  • Các tóm tắt đồ họa (biểu đồ tần suất, biểu đồ hộp, biểu đồ phân tán)
  • Phân tích dữ liệu khám phá

Mechanisms

Mô tả tiến hành bằng cách giảm nhiều quan sát thành một vài đại lượng và hình ảnh có tính thông tin. Một thước đo vị trí (trung bình, trung vị hoặc mode) tóm tắt vị trí của dữ liệu; một thước đo độ phân tán (độ lệch chuẩn, khoảng tứ phân vị, khoảng biến thiên) tóm tắt mức độ phân tán của chúng xung quanh vị trí đó; và việc ghép nối vị trí với độ phân tán được chọn để phù hợp với hình dạng của phân phối, với trung vị và khoảng tứ phân vị được ưu tiên cho dữ liệu lệch và trung bình và độ lệch chuẩn cho dữ liệu gần đối xứng. Các biểu đồ như biểu đồ tần suất và biểu đồ hộp tiết lộ hình dạng, độ lệch và các giá trị ngoại lai mà các con số đơn lẻ có thể che giấu, và cùng nhau các công cụ này tạo thành giai đoạn khám phá trước khi suy luận chính thức.

Clinical relevance

Hầu hết mọi nghiên cứu lâm sàng, kiểm toán và báo cáo giám sát đều bắt đầu bằng các tóm tắt mô tả về những người tham gia và các phép đo của họ, vì vậy việc hiểu các tóm tắt này là nền tảng để đọc tài liệu khoa học sức khỏe. Lĩnh vực này mô tả cách dữ liệu được đặc trưng và được coi là nền tảng cho việc đánh giá bằng chứng, không phải là cơ sở cho các quyết định chẩn đoán hoặc điều trị cá nhân.

Epidemiology

Tóm tắt mô tả là bước phân tích đầu tiên trong nghiên cứu dịch tễ học và lâm sàng, được sử dụng để mô tả các quần thể nghiên cứu, bảng cơ sở và sự phân bố của các yếu tố phơi nhiễm và kết cục trước khi ước tính các mối liên hệ. Việc lựa chọn các thước đo tóm tắt và biểu đồ ảnh hưởng trực tiếp đến mức độ minh bạch của dữ liệu nghiên cứu được truyền đạt.

History

Việc tóm tắt dữ liệu bằng số có nguồn gốc sâu xa từ thiên văn học và thống kê sinh tử thế kỷ 18 và 19, nhưng bộ công cụ mô tả hiện đại đã được củng cố vào thế kỷ 20. Cuốn Exploratory Data Analysis (1977) của John Tukey đã định hình lại mô tả như một hoạt động điều tra độc lập và phổ biến các biểu đồ như biểu đồ hộp, trong khi các nhà giáo dục thống kê trong khoa học sức khỏe sau đó đã hệ thống hóa các tóm tắt tiêu chuẩn hiện được báo cáo trong các tạp chí y học.

Debates

Khi nào thì trung bình và độ lệch chuẩn nên nhường chỗ cho trung vị và khoảng tứ phân vị?
Vì trung bình và độ lệch chuẩn bị ảnh hưởng bởi độ lệch và các giá trị ngoại lai, có một khuyến nghị lâu đời là tóm tắt dữ liệu không chuẩn bằng trung vị và khoảng tứ phân vị; ngưỡng thực tế để chuyển đổi phụ thuộc vào hình dạng phân phối và kích thước mẫu.

Key figures

  • John W. Tukey
  • William S. Cleveland
  • Douglas G. Altman
  • J. Martin Bland

Related topics

Seminal works

  • tukey-1977
  • gupta-2019

Frequently asked questions

Sự khác biệt giữa thống kê mô tả và thống kê suy luận là gì?
Thống kê mô tả tóm tắt và hiển thị dữ liệu thực tế đã thu thập được, trong khi thống kê suy luận sử dụng dữ liệu đó để đưa ra các khái quát hóa về một quần thể rộng lớn hơn. Mô tả đến trước và không đưa ra tuyên bố xác suất nào ngoài mẫu hiện có.
Tại sao phải mô tả dữ liệu trước khi chạy các thử nghiệm?
Các tóm tắt và biểu đồ tiết lộ hình dạng, độ phân tán và bất kỳ giá trị ngoại lai hoặc lỗi nào của phân phối, điều này quyết định liệu các phân tích sau này có phù hợp hay không và cách giải thích kết quả của chúng.

Methods for this concept

Related concepts