Suy luận phát sinh loài
Suy luận phát sinh loài là tập hợp các phương pháp được sử dụng để tái tạo cây tiến hóa từ dữ liệu đặc điểm, biến các mô hình tương đồng và khác biệt thành các giả thuyết về tổ tiên chung.
Definition
Suy luận phát sinh loài là việc ước tính các mối quan hệ tiến hóa giữa các đơn vị phân loại từ các đặc điểm di truyền, thường là trình tự phân tử. Nó tạo ra một cây, với thứ tự phân nhánh và đôi khi cả độ dài nhánh, giải thích tốt nhất dữ liệu theo một tiêu chí tối ưu rõ ràng hoặc mô hình xác suất.
Scope
Chủ đề này bao gồm các phương pháp xây dựng cây chính: khoảng cách, tính tiết kiệm (parsimony), khả năng xảy ra tối đa (maximum likelihood) và suy luận Bayes; các mô hình tiến hóa trình tự mà chúng giả định; việc sử dụng bootstrap và xác suất hậu nghiệm để đánh giá độ tin cậy; và các cạm bẫy như hiện tượng hút nhánh dài (long-branch attraction) có thể làm sai lệch suy luận.
Core questions
- Các phương pháp khoảng cách, parsimony, khả năng xảy ra tối đa và Bayes khác nhau như thế nào trong việc suy luận cây?
- Những mô hình nào mô tả cách trình tự DNA thay đổi dọc theo các nhánh?
- Độ tin cậy của một cây, chẳng hạn như hỗ trợ bootstrap hoặc xác suất hậu nghiệm, được đánh giá như thế nào?
- Những yếu tố nào, như hiện tượng hút nhánh dài, có thể gây ra các cây không chính xác?
Key theories
- Suy luận cây dựa trên tối ưu và dựa trên mô hình
- Các cây có thể được chọn bằng cách giảm thiểu sự thay đổi đặc điểm (parsimony), khớp các khoảng cách cặp (phương pháp khoảng cách), hoặc tối đa hóa xác suất của dữ liệu theo một mô hình thay thế rõ ràng (phương pháp khả năng xảy ra tối đa và Bayes).
- Đánh giá độ tin cậy bằng Bootstrap
- Việc lấy mẫu lại các đặc điểm có thay thế và xây dựng lại cây ước tính mức độ mạnh mẽ mà dữ liệu hỗ trợ mỗi nhánh, cung cấp một thước đo tiêu chuẩn về độ tin cậy trong các mối quan hệ được suy luận.
Mechanisms
Các phương pháp khoảng cách như neighbor-joining chuyển đổi sự khác biệt trình tự thành một ma trận và xây dựng cây bằng cách nhóm lại, mang lại tốc độ nhưng mất một phần thông tin. Phương pháp parsimony chọn cây yêu cầu ít thay đổi đặc điểm nhất. Các phương pháp khả năng xảy ra tối đa và Bayes áp dụng các mô hình thay thế rõ ràng, tính đến tần số base không đều, độ lệch chuyển đổi-chuyển vị (transition-transversion bias) và sự biến đổi tốc độ giữa các vị trí, đồng thời tìm kiếm cây (và các tham số) giải thích tốt nhất dữ liệu. Độ tin cậy được đánh giá bằng bootstrap đối với khả năng xảy ra tối đa và parsimony hoặc bằng xác suất hậu nghiệm trong phân tích Bayes. Hiện tượng hút nhánh dài và sai lệch mô hình có thể tạo ra các cây sai lệch một cách tự tin, vì vậy việc lựa chọn phương pháp và sự phù hợp của mô hình là rất quan trọng.
Clinical relevance
Suy luận phát sinh loài tái tạo lịch sử lây truyền của virus và vi khuẩn, xác định nguồn gốc của các đợt bùng phát, và xác định thời điểm xuất hiện của các chủng kháng thuốc hoặc độc lực, biến nó thành một công cụ cốt lõi của dịch tễ học gen.
History
Các phương pháp phân loại học (cladistic) và khoảng cách xuất hiện vào những năm 1960-1970; Saitou và Nei đã giới thiệu neighbor-joining vào năm 1987, và Felsenstein đã tiên phong trong khả năng xảy ra tối đa cho trình tự và, vào năm 1985, bootstrap cho các cây phát sinh loài. Suy luận Bayes và các bộ dữ liệu gen ngày càng lớn đã trở thành tiêu chuẩn kể từ đó.
Debates
- Parsimony so với các phương pháp dựa trên mô hình
- Một cuộc tranh luận phương pháp luận kéo dài liên quan đến việc liệu parsimony hay các mô hình xác suất rõ ràng mang lại các cây đáng tin cậy hơn, đặc biệt khi tốc độ thay đổi không đồng đều và hiện tượng hút nhánh dài là một rủi ro.
Key figures
- Joseph Felsenstein
- Masatoshi Nei
- Naruya Saitou
- Willi Hennig
Related topics
Seminal works
- saitouNei1987
- felsenstein1985
- felsensteinBook2004
Frequently asked questions
- Phương pháp nào cho ra cây tiến hóa chính xác?
- Không có phương pháp nào được đảm bảo là chính xác; các phương pháp dựa trên mô hình như khả năng xảy ra tối đa và suy luận Bayes thường được ưa chuộng cho dữ liệu trình tự, nhưng tất cả các phương pháp đều có thể bị sai lệch bởi tốc độ tiến hóa không đồng đều và vi phạm mô hình, vì vậy các biện pháp hỗ trợ là rất cần thiết.
- Giá trị bootstrap có ý nghĩa gì?
- Giá trị bootstrap phản ánh tần suất một nhóm cụ thể tái diễn khi dữ liệu được lấy mẫu lại và cây được xây dựng lại; giá trị cao cho thấy nhóm đó được hỗ trợ mạnh mẽ bởi các đặc điểm được phân tích.