Model Sekuens-ke-Sekuens dan Transformer
Arsitektur saraf yang memetakan sekuens masukan ke sekuens keluaran — encoder-decoder rekuren, atensi, dan transformer — yang mendasari penerjemahan, peringkasan, dan model bahasa generatif modern.
Definition
Model sekuens-ke-sekuens adalah jaringan saraf yang mengkodekan sekuens masukan dan menghasilkan sekuens keluaran, biasanya menggunakan mekanisme atensi untuk menyelaraskan keduanya.
Scope
Mencakup arsitektur pemodelan sekuens saraf yang menjadi inti NLP saat ini: jaringan rekuren termasuk LSTM, kerangka kerja encoder-decoder, mekanisme atensi, dan transformer. Ini membahas bagaimana model-model ini dilatih dan didekode serta mengapa self-attention transformer memungkinkan penskalaan ke model bahasa yang besar. Embeddings dan aplikasi spesifik dibahas dalam topik terkait.
Core questions
- Bagaimana kerangka kerja encoder-decoder mengubah satu sekuens menjadi sekuens lain?
- Mengapa atensi mengatasi hambatan encoding berukuran tetap?
- Apa yang dihitung oleh self-attention, dan mengapa transformer begitu skalabel?
- Bagaimana LSTM dan transformer dilatih dan digunakan untuk generasi?
Key concepts
- jaringan saraf rekuren
- LSTM
- encoder-decoder
- mekanisme atensi
- self-attention
- transformer
- pengkodean posisi
- dekode
Key theories
- Memori jangka pendek panjang (Long short-term memory)
- Arsitektur rekuren dengan sel memori bergerbang yang mengurangi masalah vanishing-gradient, memungkinkan pembelajaran dependensi jarak jauh dalam sekuens.
- Encoder-decoder dengan atensi
- Memetakan masukan ke sekuens keluaran melalui encoder dan decoder, dengan atensi memungkinkan decoder untuk fokus pada posisi masukan yang relevan di setiap langkah.
- Transformer self-attention
- Mengganti rekurensi dengan self-attention sehingga setiap token secara langsung memperhatikan setiap token lainnya, memungkinkan pelatihan paralel dan penskalaan di balik model bahasa yang besar.
History
LSTM (1997) membuat jaringan rekuren praktis untuk sekuens panjang. Pembelajaran sekuens-ke-sekuens dengan atensi (2014–2015) mengubah penerjemahan mesin, dan transformer tahun 2017 menggantikan rekurensi dengan self-attention, memungkinkan model generatif praterlatih besar yang kini mendominasi bidang ini.
Debates
- Rekurensi versus atensi
- Apakah rekurensi sekuensial atau atensi paralel penuh adalah bias induktif yang lebih baik untuk bahasa; transformer sebagian besar menang dalam skalabilitas, meskipun masalah efisiensi membuat arsitektur alternatif tetap relevan.
Key figures
- Ashish Vaswani
- Ilya Sutskever
- Sepp Hochreiter
- Jürgen Schmidhuber
Related topics
Seminal works
- hochreiter1997
- sutskever2014
- vaswani2017
Frequently asked questions
- Masalah apa yang dipecahkan oleh atensi?
- Model encoder-decoder sebelumnya mengompres seluruh masukan menjadi satu vektor tetap, yang menyebabkan hilangnya informasi untuk sekuens panjang. Atensi memungkinkan decoder untuk melihat kembali semua status encoder dan memberi bobot pada yang paling relevan di setiap langkah keluaran.