서열 분석(sequencing)과 어셈블리(assembly)의 차이점은 무엇입니까?

서열 분석은 DNA 단편의 뉴클레오타이드 서열을 읽는 것이고, 어셈블리는 이 단편들을 콘티그, 스캐폴드 또는 전체 염색체와 같은 더 길고 연속적인 서열로 재구성하는 계산 단계입니다.

이 분야에서 참조 유전체가 필요한 이유는 무엇입니까?

참조 유전체는 공유되고 버전 관리되는 좌표계를 제공하여, 서로 다른 개인과 연구실에서 얻은 새로운 서열 데이터를 일관되게 정렬, 비교 및 해석할 수 있도록 합니다.

유전체 서열 분석, 어셈블리 및 참조 표준

이 분야는 유전체 내 뉴클레오타이드 서열을 읽는 방법, 결과로 생성된 단편들을 더 긴 연속 서열로 재구성하는 방법, 그리고 새로운 데이터를 공유된 표준에 맞춰 정렬하고 해석할 수 있도록 큐레이션된 참조 유전체를 구축하고 유지하는 방법을 다룹니다. 이러한 단계들은 유전체학의 거의 모든 부분이 의존하는 기술적 토대를 형성합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

유전체 서열 분석은 유기체 DNA의 뉴클레오타이드 서열을 결정하는 것이며, 어셈블리는 중첩되는 서열 판독값을 더 긴 연속 서열로 계산적으로 재구성하는 것입니다. 참조 표준은 새로운 서열 데이터를 정렬하고 비교하는 데 사용되는 큐레이션되고 버전 관리되는 유전체 어셈블리 및 주석입니다.

Scope

이 분야는 Sanger 다이데옥시 서열 분석부터 고처리량 단일독 및 장독 플랫폼에 이르는 서열 분석 화학, 판독값을 콘티그(contig) 및 스캐폴드(scaffold)로 계산적으로 어셈블리하는 과정, GRCh38 및 텔로미어-투-텔로미어(telomere-to-telomere) 어셈블리와 같은 참조 유전체의 구축 및 주석화, 그리고 데이터 신뢰성을 관리하는 품질 관리 및 오류 수정 단계를 포괄합니다. 이들은 임상 절차가 아닌 방법론적 및 인프라적 주제로 다루어집니다.

Sub-topics

Core questions

유전체의 뉴클레오타이드 서열은 어떻게 결정되며, 서열 분석 화학은 어떻게 발전해 왔습니까?
짧거나 긴 서열 판독값은 어떻게 완전한 유전체로 재구성됩니까?
유전체 어셈블리가 유용한 참조가 되려면 무엇이 필요하며, 어떻게 버전 관리되고 주석이 달립니까?
서열 분석 오류는 어떻게 감지, 정량화 및 수정되어 후속 분석이 신뢰할 수 있도록 보장됩니까?

Key concepts

판독값(Read), 콘티그(contig) 및 스캐폴드(scaffold)
커버리지(Coverage) 및 서열 분석 깊이(sequencing depth)
단일독(Short-read) 대 장독(long-read) 서열 분석
데노보(De novo) 어셈블리 대 참조 기반 정렬(reference-guided alignment)
참조 유전체(Reference genome) 및 유전체 빌드(genome build) (예: GRCh38)
유전체 주석(Genome annotation)
염기별 품질(Phred) 점수

Mechanisms

서열 분석 플랫폼은 물리적 DNA를 기계가 읽을 수 있는 염기 호출로 변환하며, 각 호출에는 품질 추정치가 동반됩니다. 대부분의 플랫폼은 염색체보다 훨씬 짧은 단편만을 읽기 때문에, 이 단편들을 어셈블리해야 합니다. 데노보(de novo) 어셈블리는 판독값의 중첩을 통해 유전체를 재구성하며(역사적으로는 중첩-배치-합의(overlap-layout-consensus) 방식, 현재는 단일독의 경우 드 브루인 그래프(de Bruijn graphs)가 자주 사용됨), 참조 기반 분석은 기존 어셈블리에 판독값을 정렬합니다. 참조 유전체는 큐레이션된 합의 서열로, 연속적인 빌드(build)로 버전 관리되고 주석이 계층화되어 이 분야의 좌표계를 제공합니다. 품질 관리 및 오류 수정은 전체 파이프라인에 걸쳐 적용되며, 염기별 정확도를 추정하고 변이 호출 전에 아티팩트를 제거하거나 수정합니다.

Clinical relevance

신뢰할 수 있는 서열 분석, 어셈블리 및 참조 표준은 임상 및 연구 유전체학의 기반이 됩니다. 이는 변이 해석이 잘 특성화된 참조 유전체에 정확하게 정렬된 판독값에 의존하기 때문입니다. 이 분야는 유전체 증거를 생성하는 인프라를 설명하며, 개별 진단 또는 치료 결정의 근거가 아닌 참조 및 교육 자료입니다.

Evidence & guidelines

여기서 다루는 방법들은 임상 지침보다는 주요 원본 연구 및 컨소시엄 보고서를 통해 문서화되어 있습니다. Sanger의 사슬 종결법(1977), 인간 유전체 프로젝트의 초안(2001), 차세대 플랫폼에 대한 검토(Metzker, 2010), 그리고 완전한 텔로미어-투-텔로미어 인간 유전체(Nurk et al., 2022)는 이 분야의 궤적을 보여줍니다.

History

DNA 서열 분석은 1977년 Sanger의 사슬 종결 화학으로 시작되었으며, 이는 최초의 유전체를 읽을 수 있게 했고 2001년 인간 유전체 프로젝트의 초안 서열을 가능하게 했습니다. 이후 고처리량(차세대) 플랫폼의 등장은 비용을 수십 배 절감시켰고, 장독 기술은 나중에 반복 서열 영역을 해결하여 2022년 최초의 완전하고 틈 없는 인간 유전체로 절정에 달했습니다.

Key figures

Frederick Sanger
Eric Lander
Michael Metzker
Sergey Koren
Adam Phillippy

Seminal works

sanger-1977
ihgsc-2001
metzker-2009
nurk-2022

Frequently asked questions

서열 분석(sequencing)과 어셈블리(assembly)의 차이점은 무엇입니까?: 서열 분석은 DNA 단편의 뉴클레오타이드 서열을 읽는 것이고, 어셈블리는 이 단편들을 콘티그, 스캐폴드 또는 전체 염색체와 같은 더 길고 연속적인 서열로 재구성하는 계산 단계입니다.
이 분야에서 참조 유전체가 필요한 이유는 무엇입니까?: 참조 유전체는 공유되고 버전 관리되는 좌표계를 제공하여, 서로 다른 개인과 연구실에서 얻은 새로운 서열 데이터를 일관되게 정렬, 비교 및 해석할 수 있도록 합니다.