어텐션은 어떤 문제를 해결합니까?

초기 인코더-디코더 모델은 전체 입력을 단일 고정 벡터로 압축했는데, 이는 긴 시퀀스의 경우 정보 손실을 야기했습니다. 어텐션은 디코더가 모든 인코더 상태를 다시 살펴보고 각 출력 단계에서 가장 관련 있는 상태에 가중치를 부여할 수 있도록 합니다.

시퀀스-투-시퀀스 모델 및 트랜스포머

입력 시퀀스를 출력 시퀀스로 매핑하는 신경망 아키텍처 — 순환 인코더-디코더, 어텐션, 그리고 트랜스포머 — 이들은 번역, 요약, 현대 생성형 언어 모델의 기반이 됩니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

시퀀스-투-시퀀스 모델은 입력 시퀀스를 인코딩하고 출력 시퀀스를 생성하는 신경망으로, 일반적으로 어텐션 메커니즘을 사용하여 두 시퀀스를 정렬합니다.

Scope

현재 자연어 처리(NLP)의 핵심인 신경망 시퀀스 모델링 아키텍처를 다룹니다: LSTM을 포함한 순환 신경망, 인코더-디코더 프레임워크, 어텐션 메커니즘, 그리고 트랜스포머. 이 모델들이 어떻게 훈련되고 디코딩되는지, 그리고 트랜스포머의 셀프-어텐션이 대규모 언어 모델로의 확장을 어떻게 가능하게 했는지 설명합니다. 임베딩과 특정 응용 분야는 관련 주제에서 다룹니다.

Core questions

인코더-디코더 프레임워크는 어떻게 하나의 시퀀스를 다른 시퀀스로 변환합니까?
어텐션은 왜 고정 크기 인코딩의 병목 현상을 극복했습니까?
셀프-어텐션은 무엇을 계산하며, 트랜스포머는 왜 그렇게 확장성이 뛰어납니까?
LSTM과 트랜스포머는 어떻게 훈련되고 생성에 사용됩니까?

Key concepts

순환 신경망
LSTM
인코더-디코더
어텐션 메커니즘
셀프-어텐션
트랜스포머
위치 인코딩
디코딩

Key theories

장단기 기억 (Long short-term memory): 게이트가 있는 메모리 셀을 가진 순환 아키텍처로, 기울기 소실 문제를 완화하여 시퀀스에서 장거리 의존성을 학습할 수 있도록 합니다.
어텐션을 포함한 인코더-디코더: 인코더와 디코더를 통해 입력을 출력 시퀀스로 매핑하며, 어텐션은 디코더가 각 단계에서 관련 입력 위치에 집중할 수 있도록 합니다.
셀프-어텐션 트랜스포머: 순환을 셀프-어텐션으로 대체하여 모든 토큰이 다른 모든 토큰에 직접적으로 어텐션할 수 있도록 함으로써 병렬 훈련과 대규모 언어 모델의 확장을 가능하게 합니다.

History

LSTM(1997)은 순환 신경망을 긴 시퀀스에 실용적으로 만들었습니다. 어텐션을 사용한 시퀀스-투-시퀀스 학습(2014-2015)은 기계 번역을 혁신했으며, 2017년 트랜스포머는 순환을 셀프-어텐션으로 대체하여 현재 이 분야를 지배하는 대규모 사전 훈련된 생성 모델을 가능하게 했습니다.

Debates

순환 대 어텐션: 언어에 대한 귀납적 편향(inductive bias)으로 순차적 순환이 더 나은지 아니면 완전 병렬 어텐션이 더 나은지에 대한 논쟁입니다. 트랜스포머는 확장성 측면에서 크게 우위를 점했지만, 효율성 문제는 대안 아키텍처의 생존을 가능하게 합니다.

Key figures

Ashish Vaswani
Ilya Sutskever
Sepp Hochreiter
Jürgen Schmidhuber

Seminal works

hochreiter1997
sutskever2014
vaswani2017

Frequently asked questions

어텐션은 어떤 문제를 해결합니까?: 초기 인코더-디코더 모델은 전체 입력을 단일 고정 벡터로 압축했는데, 이는 긴 시퀀스의 경우 정보 손실을 야기했습니다. 어텐션은 디코더가 모든 인코더 상태를 다시 살펴보고 각 출력 단계에서 가장 관련 있는 상태에 가중치를 부여할 수 있도록 합니다.