유전체 변이의 기능적 주석
유전체 염기서열 분석을 통해 수백만 개의 변이가 발견되지만, 대부분의 변이는 그 결과가 알려져 있지 않습니다. 기능적 주석(functional annotation)은 각 변이에 생물학적 의미를 부여하는 과정입니다. 즉, 변이가 어디에 위치하는지, 어떤 유전자나 조절 요소에 영향을 미치는지, 그리고 기능 변경 가능성이 얼마나 되는지를 파악하여 중요한 소수의 변이를 중요하지 않은 다수의 변이와 구별할 수 있도록 합니다.
Definition
유전체 변이의 기능적 주석은 염기서열 변이에 생물학적 맥락과 예측된 기능적 결과를 할당하는 것으로, 여기에는 유전체 위치, 영향을 받는 유전자 또는 조절 요소, 분자적 효과(예: 미스센스(missense), 논센스(nonsense), 스플라이스 변형(splice-altering) 또는 조절(regulatory)), 그리고 기능에 대한 예측된 영향이 포함됩니다.
Scope
이 주제는 단일 염기 변이(single-nucleotide variants), 삽입(insertions), 결실(deletions) 및 구조적 변화(structural changes)의 주석을 다룹니다. 이는 유전자 및 조절 영역에 대한 변이의 위치 파악, 분자적 결과 분류, 그리고 코딩 및 비코딩 부위의 유해성 예측을 포함합니다. 이 주제는 주석을 방법론적 및 참조적 대상으로 다루며, 개별 임상 사례에 대한 변이 해석을 제공하지 않습니다.
Core questions
- 변이는 유전자, 엑손, 스플라이스 부위 및 조절 요소와 관련하여 어디에 위치하는가?
- 분자적 결과는 무엇인가? 즉, 단백질을 변경하는가, 스플라이싱을 방해하는가, 또는 조절에 영향을 미치는가?
- 변이가 기능에 유해할 가능성은 얼마나 되는가?
- 단백질 변경이라는 단순한 판독값이 없는 비코딩 변이는 어떻게 해석될 수 있는가?
Key concepts
- 변이 위치 및 결과 분류
- 미스센스, 논센스, 프레임시프트 및 스플라이스 변이
- 코딩 변이의 유해성 예측
- 비코딩 및 조절 변이 주석
- 참조 주석 소스(유전자 모델, 보존, 기능적 요소 지도)
- 발현 양적 형질 위치(eQTLs)
Mechanisms
주석 파이프라인은 먼저 각 변이를 참조 유전체(reference genome) 및 유전자 모델 세트에 매핑하여 그 위치와 기본적인 결과(즉, 코딩 엑손(coding exon), 스플라이스 부위(splice site), 번역되지 않는 영역(untranslated region) 또는 유전자간 영역(intergenic region)에 위치하는지 여부)를 결정합니다. 이 과정에는 ANNOVAR 및 SnpEff와 같은 도구가 사용됩니다. 아미노산을 변경하는 코딩 변이의 경우, SIFT와 같은 예측 알고리즘은 종간 염기서열 보존(sequence conservation)을 바탕으로 해당 치환이 허용되는지 또는 유해한지 추정합니다. 비코딩 변이는 단백질을 변경하지 않기 때문에 해석하기가 더 어렵습니다. 여기서는 ENCODE와 같은 기능적 요소 지도와 GTEx와 같은 프로젝트에서 목록화된 유전적 변이와 유전자 발현(eQTLs) 간의 연관성에 주석이 의존합니다. 결과물은 후속 우선순위 지정을 지원하는 각 변이에 대한 계층적 설명입니다.
Clinical relevance
변이 주석은 유전체 연구 및 염기서열 분석 데이터를 해석하는 데 사용되는 분석 파이프라인의 기초적인 단계입니다. 이는 후보 변이가 어떻게 특성화되고 우선순위가 지정되는지를 설명합니다. 여기서 생성되는 예측은 계산적 가설이며, 그 자체로 병원성(pathogenicity)의 결정이나 개별 진단 또는 치료 결정의 근거가 되지는 않습니다.
History
2000년대 후반 고처리량 염기서열 분석(high-throughput sequencing)으로 전체 엑솜(whole-exome) 및 전체 유전체(whole-genome) 데이터가 일상화되면서, 병목 현상은 변이 생성에서 변이 해석으로 옮겨갔습니다. SIFT(2009)와 같은 보존 기반 예측 도구는 코딩 변이를 다루었고, ANNOVAR(2010) 및 SnpEff(2012)와 같은 일반 주석 엔진은 변이 유형 전반에 걸쳐 결과 할당을 체계화했습니다. 이후 ENCODE(2012)와 같은 대규모 기능적 요소 목록과 GTEx(2015)와 같은 발현 자원은 비코딩 유전체(대부분의 변이를 구성함)로 해석 범위를 확장했습니다.
Debates
- 비코딩 변이는 어떻게 해석되어야 하는가?
- 코딩 변이는 비교적 해석 가능한 분자적 판독값을 가지지만, 대부분의 변이는 비코딩이며 직접적인 단백질 결과가 없습니다. 이를 해석하는 것은 기능적 요소 지도와 eQTL 증거에 의존하는데, 이들의 완전성과 조직 특이성은 여전히 한계로 남아 있습니다.
Key figures
- Kai Wang
- Pauline Ng
- Steven Henikoff
- Pablo Cingolani
Related topics
Seminal works
- kumar-2009
- wang-2010
- cingolani-2012
- encode-2012
Frequently asked questions
- 변이에 주석을 단다는 것은 무엇을 의미합니까?
- 이는 변이에 생물학적 맥락을 부여하는 것을 의미합니다. 즉, 유전자 및 조절 요소와 관련하여 어디에 위치하는지, 어떤 분자적 결과를 가지는지, 그리고 기능에 영향을 미 미칠 가능성이 얼마나 되는지를 파악하여 중요한 변이를 중립적인 변이와 구별할 수 있도록 합니다.
- 비코딩 변이가 코딩 변이보다 주석을 달기 어려운 이유는 무엇입니까?
- 코딩 변이는 유전 암호에 따라 단백질 변화를 예측할 수 있지만, 비코딩 변이는 그러한 직접적인 판독값이 없습니다. 이를 해석하는 것은 조절 요소 지도와 변이와 유전자 발현 간의 연관성에 의존하는데, 이는 아직 불완전합니다.