Model Bahasa Neural dan Penyematan Kata
Mempelajari representasi vektor padat dari kata dan konteks dari teks mentah — dari penyematan word2vec hingga representasi kontekstual seperti BERT — yang mengkodekan makna sebagai geometri.
Definition
Penyematan kata (word embedding) adalah vektor bernilai riil padat yang merepresentasikan makna sebuah kata, dipelajari sedemikian rupa sehingga kemiripan distribusional tercermin dalam kedekatan ruang vektor; penyematan kontekstual memperluas ini ke representasi yang bergantung pada teks di sekitarnya.
Scope
Mencakup representasi bahasa terdistribusi dan neural: hipotesis distribusional, penyematan kata statis seperti word2vec dan GloVe, model bahasa neural, dan penyematan kontekstual dari transformer praterlatih seperti BERT. Ini membahas bagaimana representasi dilatih, dievaluasi, dan ditransfer ke tugas hilir. Detail arsitektur transformer dan generasi dibahas dalam topik terkait.
Core questions
- Apa itu hipotesis distribusional dan bagaimana penyematan mengoperasionalkannya?
- Bagaimana word2vec mempelajari vektor kata dari kemunculan bersama?
- Bagaimana penyematan kontekstual berbeda dari yang statis?
- Mengapa praterlatih dan pembelajaran transfer mengubah NLP?
Key concepts
- hipotesis distribusional
- penyematan kata
- word2vec
- skip-gram
- penyematan kontekstual
- praterlatih dan penyetelan halus
- pembelajaran transfer
- pemodelan bahasa bertopeng
Key theories
- Hipotesis distribusional
- Gagasan bahwa kata-kata yang muncul dalam konteks serupa memiliki makna serupa, yang mendasari semua metode penyematan dengan menurunkan makna dari statistik kemunculan bersama.
- Praterlatih kontekstual
- Melatih model bidireksional mendalam pada teks tidak berlabel besar, seperti pada BERT, untuk menghasilkan representasi sensitif konteks yang dapat ditransfer ke banyak tugas hilir dengan sedikit penyetelan halus.
History
Hipotesis distribusional Harris pertama kali dioperasionalkan oleh model ruang vektor berbasis hitungan, kemudian oleh model bahasa neural Bengio (2003) dan word2vec efisien Mikolov (2013). Kedatangan model kontekstual seperti ELMo dan BERT pada 2018–2019 menjadikan praterlatih-dan-penyetelan halus sebagai paradigma dominan.
Debates
- Apa sebenarnya yang dikodekan oleh penyematan?
- Apakah representasi yang dipelajari menangkap struktur semantik dan sintaksis yang asli atau hanya keteraturan kemunculan bersama dan bias yang ada dalam data pelatihan, sebuah pertanyaan sentral untuk interpretasi.
Key figures
- Yoshua Bengio
- Tomas Mikolov
- Jacob Devlin
- Zellig Harris
Related topics
Seminal works
- bengio2003
- mikolov2013
- devlin2019
Frequently asked questions
- Apa perbedaan antara penyematan statis dan kontekstual?
- Penyematan statis memberikan satu vektor tetap untuk sebuah kata terlepas dari konteksnya, sehingga 'bank' memiliki satu representasi. Penyematan kontekstual menghasilkan vektor yang berbeda untuk setiap kemunculan, membedakan bank sungai dari bank keuangan.