시퀀스-투-시퀀스 모델 및 트랜스포머
입력 시퀀스를 출력 시퀀스로 매핑하는 신경망 아키텍처 — 순환 인코더-디코더, 어텐션, 그리고 트랜스포머 — 이들은 번역, 요약, 현대 생성형 언어 모델의 기반이 됩니다.
PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
Learn & explore
동영상곧 제공
Definition
시퀀스-투-시퀀스 모델은 입력 시퀀스를 인코딩하고 출력 시퀀스를 생성하는 신경망으로, 일반적으로 어텐션 메커니즘을 사용하여 두 시퀀스를 정렬합니다.
Scope
현재 자연어 처리(NLP)의 핵심인 신경망 시퀀스 모델링 아키텍처를 다룹니다: LSTM을 포함한 순환 신경망, 인코더-디코더 프레임워크, 어텐션 메커니즘, 그리고 트랜스포머. 이 모델들이 어떻게 훈련되고 디코딩되는지, 그리고 트랜스포머의 셀프-어텐션이 대규모 언어 모델로의 확장을 어떻게 가능하게 했는지 설명합니다. 임베딩과 특정 응용 분야는 관련 주제에서 다룹니다.
Core questions
- 인코더-디코더 프레임워크는 어떻게 하나의 시퀀스를 다른 시퀀스로 변환합니까?
- 어텐션은 왜 고정 크기 인코딩의 병목 현상을 극복했습니까?
- 셀프-어텐션은 무엇을 계산하며, 트랜스포머는 왜 그렇게 확장성이 뛰어납니까?
- LSTM과 트랜스포머는 어떻게 훈련되고 생성에 사용됩니까?
Key concepts
- 순환 신경망
- LSTM
- 인코더-디코더
- 어텐션 메커니즘
- 셀프-어텐션
- 트랜스포머
- 위치 인코딩
- 디코딩
Key theories
- 장단기 기억 (Long short-term memory)
- 게이트가 있는 메모리 셀을 가진 순환 아키텍처로, 기울기 소실 문제를 완화하여 시퀀스에서 장거리 의존성을 학습할 수 있도록 합니다.
- 어텐션을 포함한 인코더-디코더
- 인코더와 디코더를 통해 입력을 출력 시퀀스로 매핑하며, 어텐션은 디코더가 각 단계에서 관련 입력 위치에 집중할 수 있도록 합니다.
- 셀프-어텐션 트랜스포머
- 순환을 셀프-어텐션으로 대체하여 모든 토큰이 다른 모든 토큰에 직접적으로 어텐션할 수 있도록 함으로써 병렬 훈련과 대규모 언어 모델의 확장을 가능하게 합니다.
History
LSTM(1997)은 순환 신경망을 긴 시퀀스에 실용적으로 만들었습니다. 어텐션을 사용한 시퀀스-투-시퀀스 학습(2014-2015)은 기계 번역을 혁신했으며, 2017년 트랜스포머는 순환을 셀프-어텐션으로 대체하여 현재 이 분야를 지배하는 대규모 사전 훈련된 생성 모델을 가능하게 했습니다.
Debates
- 순환 대 어텐션
- 언어에 대한 귀납적 편향(inductive bias)으로 순차적 순환이 더 나은지 아니면 완전 병렬 어텐션이 더 나은지에 대한 논쟁입니다. 트랜스포머는 확장성 측면에서 크게 우위를 점했지만, 효율성 문제는 대안 아키텍처의 생존을 가능하게 합니다.
Key figures
- Ashish Vaswani
- Ilya Sutskever
- Sepp Hochreiter
- Jürgen Schmidhuber
Related topics
Seminal works
- hochreiter1997
- sutskever2014
- vaswani2017
Frequently asked questions
- 어텐션은 어떤 문제를 해결합니까?
- 초기 인코더-디코더 모델은 전체 입력을 단일 고정 벡터로 압축했는데, 이는 긴 시퀀스의 경우 정보 손실을 야기했습니다. 어텐션은 디코더가 모든 인코더 상태를 다시 살펴보고 각 출력 단계에서 가장 관련 있는 상태에 가중치를 부여할 수 있도록 합니다.