การทบทวนวรรณกรรมอย่างเป็นระบบและการวิเคราะห์อภิมาน
การทบทวนวรรณกรรมอย่างเป็นระบบร่วมกับการวิเคราะห์อภิมานเป็นการรวมสองวิธีเข้าด้วยกัน: การทบทวนที่มีโครงสร้างและสามารถทำซ้ำได้ ซึ่งรวบรวมและประเมินการศึกษาที่เข้าเกณฑ์ทั้งหมดเกี่ยวกับคำถามหนึ่ง และกระบวนการทางสถิติที่รวมผลลัพธ์เหล่านั้นเข้าเป็นค่าประมาณผลรวมถ่วงน้ำหนักเพียงค่าเดียว การทบทวนจะควบคุมอคติของการเลือกการศึกษา; การวิเคราะห์อภิมานจะวัดปริมาณสัญญาณรวมและความแปรปรวนรอบสัญญาณนั้น เมื่อรวมกันแล้ว วิธีการทั้งสองนี้ถือเป็นวิธีการต้นแบบของการวิจัยการแทรกแซงโดยอาศัยหลักฐานเชิงประจักษ์
Definition
การทบทวนวรรณกรรมอย่างเป็นระบบร่วมกับการวิเคราะห์อภิมานคือการทบทวนที่ใช้วิธีการที่ชัดเจนและสามารถทำซ้ำได้เพื่อระบุและประเมินการศึกษาที่เข้าเกณฑ์ทั้งหมดเกี่ยวกับคำถามหนึ่ง จากนั้นจึงรวมค่าประมาณผลกระทบทางสถิติเข้าเป็นค่าประมาณรวม โดยระบุทั้งผลกระทบหลักและความแตกต่างหลากหลาย (heterogeneity) ระหว่างการศึกษา
Scope
หัวข้อนี้ครอบคลุมการดำเนินการทบทวนวรรณกรรมอย่างเป็นระบบร่วมกับการรวมข้อมูลเชิงปริมาณ: ระเบียบวิธีวิจัยและเกณฑ์การคัดเลือก, การค้นหาและการคัดกรอง, การประเมินความเสี่ยงของอคติ, การเลือกระหว่างแบบจำลองผลกระทบคงที่กับแบบจำลองผลกระทบสุ่ม, การถ่วงน้ำหนัก, ความแตกต่างหลากหลาย (heterogeneity), และมาตรฐานการรายงานและความน่าเชื่อถือที่ควบคุมผลลัพธ์ นี่คือข้อมูลอ้างอิงทางระเบียบวิธีวิจัย ไม่ใช่แนวทางปฏิบัติทางคลินิก
Core questions
- การศึกษาที่รวมอยู่มีความคล้ายคลึงกันเพียงพอที่จะรวมผลลัพธ์เข้าด้วยกันหรือไม่?
- ควรใช้แบบจำลองผลกระทบคงที่หรือแบบจำลองผลกระทบสุ่ม?
- ผลลัพธ์ของการศึกษาแตกต่างกันมากน้อยเพียงใดนอกเหนือจากโอกาส (ความแตกต่างหลากหลาย)?
- ความเสี่ยงของอคติภายในงานวิจัยสะท้อนอยู่ในค่าประมาณรวมอย่างไร?
- หลักฐานรวมโดยรวมมีความน่าเชื่อถือเพียงใด?
Key concepts
- ระเบียบวิธีวิจัยและเกณฑ์การคัดเลือกที่กำหนดไว้ล่วงหน้า
- มาตรวัดผลกระทบ (เช่น อัตราส่วนความเสี่ยง, อัตราส่วนความน่าจะเป็น, ความแตกต่างของค่าเฉลี่ย)
- การถ่วงน้ำหนักแบบส่วนกลับของความแปรปรวน
- แบบจำลองผลกระทบคงที่เทียบกับแบบจำลองผลกระทบสุ่ม
- ความแตกต่างหลากหลายและสถิติ I-squared
- แผนภาพฟอเรสต์
- การประเมินความเสี่ยงของอคติ
- การจัดอันดับความน่าเชื่อถือ (GRADE)
Mechanisms
หลังจากระบุและประเมินการศึกษาที่เข้าเกณฑ์แล้ว การศึกษาแต่ละชิ้นจะให้ค่าประมาณผลกระทบพร้อมกับมาตรวัดความแม่นยำ การวิเคราะห์อภิมานจะรวมสิ่งเหล่านี้โดยการถ่วงน้ำหนักการศึกษาแต่ละชิ้น โดยทั่วไปจะใช้ส่วนกลับของความแปรปรวน เพื่อให้การศึกษาที่มีขนาดใหญ่และแม่นยำกว่ามีน้ำหนักมากขึ้น แบบจำลองผลกระทบคงที่ (fixed-effect model) จะสมมติว่ามีผลกระทบที่แท้จริงร่วมกันเพียงค่าเดียว; แบบจำลองผลกระทบสุ่ม (random-effects model) จะสมมติว่าผลกระทบที่แท้จริงแตกต่างกันไปในการศึกษาต่างๆ และรวมความแปรปรวนระหว่างการศึกษานั้นเข้าไปด้วย การกระจายตัวของผลกระทบที่แท้จริงนอกเหนือจากข้อผิดพลาดจากการสุ่มตัวอย่างคือความแตกต่างหลากหลาย (heterogeneity) ซึ่งมักจะสรุปด้วยสถิติ I-squared และผลรวมมักจะแสดงในแผนภาพฟอเรสต์ (forest plot) การรายงานเป็นไปตาม PRISMA, อคติภายในงานวิจัยจะถูกประเมินด้วยเครื่องมือเช่นเครื่องมือประเมินความเสี่ยงของอคติของ Cochrane และความน่าเชื่อถือของหลักฐานรวมจะถูกจัดอันดับด้วย GRADE (higgins-handbook-2019; page-2021-prisma; higgins-2011-rob; guyatt-2008-grade)
Clinical relevance
การวิเคราะห์อภิมานของการทดลองแบบสุ่มที่มีกลุ่มควบคุม (randomised trials) ให้หลักฐานเชิงปริมาณส่วนใหญ่ที่อ้างอิงในแนวทางปฏิบัติและในการประเมินเทคโนโลยีด้านสุขภาพ การอ่านการวิเคราะห์อภิมานอย่างมีวิจารณญาณ — การตรวจสอบว่ามีการรวมอะไรบ้าง, มีการจัดการกับความแตกต่างหลากหลายอย่างไร, และหลักฐานมีความน่าเชื่อถือในระดับใด — เป็นส่วนหนึ่งของการประเมินหลักฐาน วิธีการนี้อธิบายถึงวิธีการสร้างค่าประมาณรวม; ไม่ได้กำหนดการรักษาสำหรับแต่ละบุคคล
Evidence & guidelines
การดำเนินการและการรายงานเป็นมาตรฐาน: PRISMA 2020 (พร้อมกับแนวทางอธิบายและขยายความปี 2009) ควบคุมการรายงาน, คู่มือ Cochrane อธิบายวิธีการที่ยอมรับ, เครื่องมือประเมินความเสี่ยงของอคติของ Cochrane จัดโครงสร้างการประเมินภายในงานวิจัย, และ GRADE จัดอันดับความน่าเชื่อถือของหลักฐานทั้งหมด (page-2021-prisma; liberati-2009; higgins-handbook-2019; higgins-2011-rob; guyatt-2008-grade)
History
การรวมข้อมูลทางสถิติของการศึกษาต่างๆ มีมาตั้งแต่สถิติการเกษตรและการแพทย์ในช่วงต้นศตวรรษที่ยี่สิบ และคำว่าการวิเคราะห์อภิมาน (meta-analysis) ถูกบัญญัติขึ้นในปี 1976 การทบทวนวรรณกรรมอย่างเป็นระบบได้รวมกระบวนการโดยรอบในช่วงทศวรรษ 1990 โดยเฉพาะอย่างยิ่งผ่าน Cochrane Collaboration มาตรฐานการรายงานพัฒนาจาก QUOROM ไปสู่ PRISMA (2009, ปรับปรุง 2021), สถิติความแตกต่างหลากหลาย (heterogeneity) เช่น I-squared ได้รับความนิยม และ GRADE ได้จัดทำกรอบการทำงานความน่าเชื่อถือที่มีโครงสร้าง ซึ่งทั้งหมดนี้ได้กำหนดวิธีการที่ทันสมัย (page-2021-prisma; higgins-handbook-2019)
Debates
- ความแตกต่างหลากหลายมากเกินไปเมื่อใดจึงไม่ควรนำมารวมกัน?
- การรวมการศึกษาที่แตกต่างกันทางคลินิกหรือทางสถิติอาจทำให้เกิดค่าเฉลี่ยที่ทำให้เข้าใจผิดได้ ผู้ทบทวนวรรณกรรมยังคงถกเถียงกันเกี่ยวกับเกณฑ์และว่าจะเลือกใช้แบบจำลองผลกระทบสุ่ม, การวิเคราะห์กลุ่มย่อย, หรือการสังเคราะห์เชิงบรรยายแทนการรวมข้อมูล
Key figures
- Julian Higgins
- David Moher
- Matthew Page
- Gordon Guyatt
- Cynthia Mulrow
Related topics
Seminal works
- page-2021-prisma
- higgins-handbook-2019
- guyatt-2008-grade
Frequently asked questions
- การทบทวนวรรณกรรมอย่างเป็นระบบทุกครั้งมีการวิเคราะห์อภิมานหรือไม่?
- ไม่ เมื่อการศึกษาแตกต่างกันมากเกินไปในด้านประชากร, การแทรกแซง, หรือผลลัพธ์ การรวมข้อมูลอาจทำให้เข้าใจผิดได้ และการทบทวนจะรายงานการสังเคราะห์เชิงบรรยายที่มีโครงสร้างแทนที่จะเป็นค่าประมาณรวมเพียงค่าเดียว
- แผนภาพฟอเรสต์คืออะไร?
- แผนภาพฟอเรสต์แสดงค่าประมาณผลกระทบและช่วงความเชื่อมั่นของการศึกษาแต่ละชิ้นควบคู่ไปกับค่าประมาณรวม ทำให้มองเห็นการมีส่วนร่วมของการศึกษาแต่ละชิ้นและผลลัพธ์โดยรวมได้อย่างรวดเร็ว