Masalah apa yang dipecahkan oleh atensi?

Model encoder-decoder sebelumnya mengompres seluruh masukan menjadi satu vektor tetap, yang menyebabkan hilangnya informasi untuk sekuens panjang. Atensi memungkinkan decoder untuk melihat kembali semua status encoder dan memberi bobot pada yang paling relevan di setiap langkah keluaran.

Model Sekuens-ke-Sekuens dan Transformer

Arsitektur saraf yang memetakan sekuens masukan ke sekuens keluaran — encoder-decoder rekuren, atensi, dan transformer — yang mendasari penerjemahan, peringkasan, dan model bahasa generatif modern.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Model sekuens-ke-sekuens adalah jaringan saraf yang mengkodekan sekuens masukan dan menghasilkan sekuens keluaran, biasanya menggunakan mekanisme atensi untuk menyelaraskan keduanya.

Scope

Mencakup arsitektur pemodelan sekuens saraf yang menjadi inti NLP saat ini: jaringan rekuren termasuk LSTM, kerangka kerja encoder-decoder, mekanisme atensi, dan transformer. Ini membahas bagaimana model-model ini dilatih dan didekode serta mengapa self-attention transformer memungkinkan penskalaan ke model bahasa yang besar. Embeddings dan aplikasi spesifik dibahas dalam topik terkait.

Core questions

Bagaimana kerangka kerja encoder-decoder mengubah satu sekuens menjadi sekuens lain?
Mengapa atensi mengatasi hambatan encoding berukuran tetap?
Apa yang dihitung oleh self-attention, dan mengapa transformer begitu skalabel?
Bagaimana LSTM dan transformer dilatih dan digunakan untuk generasi?

Key concepts

jaringan saraf rekuren
LSTM
encoder-decoder
mekanisme atensi
self-attention
transformer
pengkodean posisi
dekode

Key theories

Memori jangka pendek panjang (Long short-term memory): Arsitektur rekuren dengan sel memori bergerbang yang mengurangi masalah vanishing-gradient, memungkinkan pembelajaran dependensi jarak jauh dalam sekuens.
Encoder-decoder dengan atensi: Memetakan masukan ke sekuens keluaran melalui encoder dan decoder, dengan atensi memungkinkan decoder untuk fokus pada posisi masukan yang relevan di setiap langkah.
Transformer self-attention: Mengganti rekurensi dengan self-attention sehingga setiap token secara langsung memperhatikan setiap token lainnya, memungkinkan pelatihan paralel dan penskalaan di balik model bahasa yang besar.

History

LSTM (1997) membuat jaringan rekuren praktis untuk sekuens panjang. Pembelajaran sekuens-ke-sekuens dengan atensi (2014–2015) mengubah penerjemahan mesin, dan transformer tahun 2017 menggantikan rekurensi dengan self-attention, memungkinkan model generatif praterlatih besar yang kini mendominasi bidang ini.

Debates

Rekurensi versus atensi: Apakah rekurensi sekuensial atau atensi paralel penuh adalah bias induktif yang lebih baik untuk bahasa; transformer sebagian besar menang dalam skalabilitas, meskipun masalah efisiensi membuat arsitektur alternatif tetap relevan.

Key figures

Ashish Vaswani
Ilya Sutskever
Sepp Hochreiter
Jürgen Schmidhuber

Seminal works

hochreiter1997
sutskever2014
vaswani2017

Frequently asked questions

Masalah apa yang dipecahkan oleh atensi?: Model encoder-decoder sebelumnya mengompres seluruh masukan menjadi satu vektor tetap, yang menyebabkan hilangnya informasi untuk sekuens panjang. Atensi memungkinkan decoder untuk melihat kembali semua status encoder dan memberi bobot pada yang paling relevan di setiap langkah keluaran.