NLP Statistik dan Neural
Inti berbasis data dari linguistik komputasi modern: metode pembelajaran mesin yang belajar dari teks, mulai dari pengklasifikasi statistik dan penyematan kata hingga jaringan neural berbasis transformer dan model bahasa besar.
Definition
NLP statistik dan neural adalah kumpulan metode pembelajaran mesin yang menyimpulkan kemampuan pemrosesan bahasa dari data, bukan dari aturan yang ditulis secara manual.
Scope
Mencakup metode berbasis pembelajaran yang mendominasi NLP kontemporer — klasifikasi teks terawasi, representasi kata terdistribusi dan model bahasa neural, arsitektur sekuens-ke-sekuens dan transformer, serta terjemahan mesin sebagai aplikasi unggulan. Ini menempatkan revolusi statistik tahun 1990-an dan revolusi neural tahun 2010-an sebagai lintasan yang berkelanjutan. Representasi linguistik dan aplikasi dibahas di area yang berdekatan.
Sub-topics
Core questions
- Bagaimana tugas-tugas bahasa dibingkai sebagai masalah pembelajaran terawasi?
- Bagaimana representasi terdistribusi menangkap makna kata dan kalimat?
- Apa yang membuat arsitektur transformer begitu efektif untuk bahasa?
- Bagaimana metode statistik dan kemudian neural mendominasi bidang ini?
Key concepts
- pembelajaran terawasi
- representasi fitur
- penyematan kata
- jaringan neural
- self-attention
- transformer
- transfer learning
- model bahasa besar
Key theories
- Pembelajaran representasi distribusional
- Merepresentasikan kata dan teks sebagai vektor padat yang dipelajari dari kemunculan bersama dalam korpus besar, sehingga kesamaan semantik menjadi kedekatan geometris.
- Self-attention dan transformer
- Sebuah arsitektur yang memodelkan hubungan antara semua token dalam sebuah urutan melalui perhatian (attention), memungkinkan pelatihan yang sangat paralel dan menjadi dasar model bahasa besar modern.
History
Revolusi statistik tahun 1990-an menggantikan aturan yang dibuat secara manual dengan model probabilistik yang diperkirakan dari korpus. Penyematan kata dan jaringan rekuren pada awal 2010-an, diikuti oleh transformer tahun 2017 dan model praterlatih besar, menghasilkan peningkatan pesat di hampir setiap tugas dan membentuk kembali disiplin ilmu di sekitar representasi yang dipelajari.
Debates
- Apakah model neural memahami bahasa?
- Apakah model neural besar menangkap kompetensi dan makna linguistik yang sebenarnya atau hanya memanfaatkan statistik permukaan; pertanyaan ini mendorong pekerjaan berkelanjutan tentang interpretasi dan evaluasi.
Key figures
- Christopher Manning
- Yoshua Bengio
- Ashish Vaswani
- Tomas Mikolov
Related topics
Seminal works
- manning1999
- vaswani2017
- jurafsky2025
Frequently asked questions
- Apakah NLP statistik sudah usang sekarang setelah model neural ada?
- Tidak. NLP neural bertumpu pada fondasi statistik yang sama — probabilitas, estimasi, dan evaluasi — dan banyak ide seperti penghalusan (smoothing), klasifikasi, dan pemodelan bahasa secara langsung terbawa ke dalam pengaturan neural.