การอนุมานสายวิวัฒนาการชาติพันธุ์
การอนุมานสายวิวัฒนาการชาติพันธุ์คือชุดของวิธีการที่ใช้ในการสร้างแผนภูมิต้นไม้สายวิวัฒนาการขึ้นใหม่จากข้อมูลลักษณะเฉพาะ โดยเปลี่ยนรูปแบบความคล้ายคลึงและความแตกต่างให้เป็นสมมติฐานเกี่ยวกับบรรพบุรุษ
Definition
การอนุมานสายวิวัฒนาการชาติพันธุ์คือการประมาณความสัมพันธ์ทางวิวัฒนาการระหว่างอนุกรมวิธานจากลักษณะทางพันธุกรรม ซึ่งส่วนใหญ่มักเป็นลำดับโมเลกุล โดยจะสร้างแผนภูมิต้นไม้ที่มีลำดับการแตกกิ่ง และบางครั้งก็มีความยาวกิ่ง ซึ่งอธิบายข้อมูลได้ดีที่สุดภายใต้เกณฑ์ความเหมาะสมที่ชัดเจนหรือแบบจำลองความน่าจะเป็น
Scope
หัวข้อนี้ครอบคลุมวิธีการสร้างแผนภูมิต้นไม้หลัก ได้แก่ วิธีระยะทาง (distance), ความตระหนี่ (parsimony), ความน่าจะเป็นสูงสุด (maximum likelihood) และการอนุมานแบบเบย์ (Bayesian inference) รวมถึงแบบจำลองวิวัฒนาการของลำดับที่วิธีการเหล่านี้ใช้ การใช้บูตสแตรป (bootstrap) และความน่าจะเป็นภายหลัง (posterior probabilities) เพื่อประเมินการสนับสนุน และข้อผิดพลาด เช่น การดึงดูดของกิ่งยาว (long-branch attraction) ที่อาจทำให้การอนุมานผิดพลาดได้
Core questions
- วิธีการระยะทาง (distance), ความตระหนี่ (parsimony), ความน่าจะเป็น (likelihood) และเบย์ (Bayesian) แตกต่างกันอย่างไรในการอนุมานแผนภูมิต้นไม้?
- แบบจำลองใดที่อธิบายว่าลำดับดีเอ็นเอเปลี่ยนแปลงไปตามกิ่งก้านได้อย่างไร?
- ความมั่นใจในแผนภูมิต้นไม้ เช่น การสนับสนุนจากบูตสแตรป (bootstrap support) หรือความน่าจะเป็นภายหลัง (posterior probability) ประเมินได้อย่างไร?
- สิ่งประดิษฐ์ใดบ้าง เช่น การดึงดูดของกิ่งยาว (long-branch attraction) ที่อาจทำให้เกิดแผนภูมิต้นไม้ที่ไม่ถูกต้องได้?
Key theories
- การอนุมานแผนภูมิต้นไม้โดยใช้เกณฑ์ความเหมาะสมและแบบจำลอง
- แผนภูมิต้นไม้สามารถเลือกได้โดยการลดการเปลี่ยนแปลงลักษณะให้น้อยที่สุด (ความตระหนี่), การปรับระยะห่างเป็นคู่ (วิธีการระยะทาง), หรือการเพิ่มความน่าจะเป็นของข้อมูลภายใต้แบบจำลองการแทนที่ที่ชัดเจน (วิธีการความน่าจะเป็นและเบย์)
- การประเมินการสนับสนุนด้วยบูตสแตรป
- การสุ่มตัวอย่างลักษณะซ้ำโดยมีการใส่คืนและการสร้างแผนภูมิต้นไม้ใหม่จะประมาณว่าข้อมูลสนับสนุนแต่ละกลุ่มย่อย (clade) ได้อย่างแข็งแกร่งเพียงใด ซึ่งเป็นมาตรวัดมาตรฐานของความมั่นใจในความสัมพันธ์ที่อนุมานได้
Mechanisms
วิธีการระยะทาง เช่น การจัดกลุ่มเพื่อนบ้านใกล้เคียง (neighbor-joining) จะแปลงความแตกต่างของลำดับเป็นเมทริกซ์และสร้างแผนภูมิต้นไม้โดยการจัดกลุ่ม ซึ่งให้ความเร็วแต่สูญเสียข้อมูลบางส่วนไป วิธีความตระหนี่จะเลือกแผนภูมิต้นไม้ที่ต้องการการเปลี่ยนแปลงลักษณะน้อยที่สุด วิธีความน่าจะเป็นสูงสุดและวิธีเบย์จะใช้แบบจำลองการแทนที่ที่ชัดเจน โดยคำนึงถึงความถี่ของเบสที่ไม่เท่ากัน อคติของการเปลี่ยนผ่าน-การผกผัน (transition-transversion bias) และความแปรผันของอัตราในแต่ละตำแหน่ง และค้นหาแผนภูมิต้นไม้ (และพารามิเตอร์) ที่อธิบายข้อมูลได้ดีที่สุด การสนับสนุนจะประเมินโดยบูตสแตรปสำหรับความน่าจะเป็นและวิธีความตระหนี่ หรือโดยความน่าจะเป็นภายหลังในการวิเคราะห์แบบเบย์ การดึงดูดของกิ่งยาวและการกำหนดแบบจำลองผิดพลาดอาจทำให้ได้แผนภูมิต้นไม้ที่ผิดพลาดอย่างมั่นใจ ดังนั้นการเลือกวิธีและแบบจำลองที่เหมาะสมจึงมีความสำคัญ
Clinical relevance
การอนุมานสายวิวัฒนาการชาติพันธุ์ช่วยสร้างประวัติการแพร่เชื้อของไวรัสและแบคทีเรีย ระบุแหล่งที่มาของการระบาด และกำหนดวันที่ของการเกิดสายพันธุ์ที่ดื้อยาหรือรุนแรง ทำให้เป็นเครื่องมือหลักของระบาดวิทยาจีโนมิกส์
History
วิธีการทางคล้าดิสติก (cladistic) และวิธีการระยะทางเริ่มปรากฏขึ้นในช่วงทศวรรษ 1960-1970; Saitou และ Nei ได้นำเสนอการจัดกลุ่มเพื่อนบ้านใกล้เคียงในปี 1987 และ Felsenstein เป็นผู้บุกเบิกความน่าจะเป็นสูงสุดสำหรับลำดับ และในปี 1985 ได้นำเสนอการบูตสแตรปสำหรับสายวิวัฒนาการชาติพันธุ์ ตั้งแต่นั้นมา การอนุมานแบบเบย์และชุดข้อมูลจีโนมิกส์ที่ใหญ่ขึ้นเรื่อยๆ ก็กลายเป็นมาตรฐาน
Debates
- ความตระหนี่เทียบกับวิธีการที่ใช้แบบจำลอง
- การถกเถียงทางระเบียบวิธีที่ดำเนินมาอย่างยาวนานเกี่ยวข้องกับว่าวิธีการความตระหนี่หรือแบบจำลองความน่าจะเป็นที่ชัดเจนให้แผนภูมิต้นไม้ที่น่าเชื่อถือมากกว่ากัน โดยเฉพาะอย่างยิ่งเมื่ออัตราการเปลี่ยนแปลงไม่สม่ำเสมอและมีความเสี่ยงต่อการดึงดูดของกิ่งยาว
Key figures
- Joseph Felsenstein
- Masatoshi Nei
- Naruya Saitou
- Willi Hennig
Related topics
Seminal works
- saitouNei1987
- felsenstein1985
- felsensteinBook2004
Frequently asked questions
- วิธีใดให้แผนภูมิต้นไม้สายวิวัฒนาการที่ถูกต้อง?
- ไม่มีวิธีใดรับประกันความถูกต้อง; วิธีการที่ใช้แบบจำลอง เช่น ความน่าจะเป็นสูงสุดและการอนุมานแบบเบย์ มักได้รับความนิยมสำหรับข้อมูลลำดับ แต่ทุกวิธีอาจถูกทำให้เข้าใจผิดได้ด้วยอัตราวิวัฒนาการที่ไม่สม่ำเสมอและการละเมิดแบบจำลอง ดังนั้นมาตรการสนับสนุนจึงเป็นสิ่งจำเป็น
- ค่าบูตสแตรปหมายถึงอะไร?
- ค่าบูตสแตรปสะท้อนให้เห็นว่าการจัดกลุ่มเฉพาะเกิดขึ้นซ้ำบ่อยเพียงใดเมื่อมีการสุ่มตัวอย่างข้อมูลใหม่และสร้างแผนภูมิต้นไม้ใหม่; ค่าที่สูงบ่งชี้ว่าการจัดกลุ่มนั้นได้รับการสนับสนุนอย่างแข็งแกร่งจากลักษณะที่วิเคราะห์