ทรัพยากรคำศัพท์และคลังข้อมูล
ฐานข้อมูลและความรู้ที่ภาษาศาสตร์คอมพิวเตอร์เชิงประจักษ์ต้องพึ่งพา: คลังข้อความ, ฐานข้อมูลคำศัพท์และออนโทโลยี, การประมวลผลโครงสร้างคำด้วยคอมพิวเตอร์, และคลังต้นไม้ที่ใส่คำอธิบายประกอบอย่างละเอียด
Definition
ทรัพยากรคำศัพท์และคลังข้อมูลคือชุดข้อมูลภาษาที่มีโครงสร้าง — ข้อความ, พจนานุกรม, และคำอธิบายประกอบ — ที่สร้างขึ้นเพื่อสนับสนุนการวิเคราะห์เชิงประจักษ์และการฝึกอบรมระบบประมวลผลภาษา
Scope
ครอบคลุมการสร้าง การดูแลจัดการ และการใช้ทรัพยากรทางภาษา — คลังข้อมูลที่สมดุลและคลังข้อมูลเว็บ, ฐานข้อมูลคำศัพท์เชิงความหมาย เช่น WordNet, สัทวิทยาเชิงคำนวณและพจนานุกรม, และคลังต้นไม้ที่ใส่คำอธิบายประกอบ กล่าวถึงการออกแบบคลังข้อมูล, การเป็นตัวแทน, มาตรฐานการใส่คำอธิบายประกอบ, และบทบาทของทรัพยากรในการฝึกอบรมและประเมินระบบ การสร้างแบบจำลองเชิงอัลกอริทึมที่ใช้ทรัพยากรเหล่านี้จะครอบคลุมในส่วนอื่น ๆ
Sub-topics
Core questions
- คลังข้อมูลได้รับการออกแบบให้เป็นตัวแทนและสมดุลได้อย่างไร?
- ความหมายของคำสามารถจัดระเบียบเป็นฐานข้อมูลคำศัพท์ที่เครื่องอ่านได้ได้อย่างไร?
- โครงสร้างคำถูกนำเสนอในเชิงคอมพิวเตอร์อย่างไรในภาษาที่มีสัทวิทยาที่ซับซ้อน?
- เหตุใดคลังต้นไม้ที่มีคำอธิบายประกอบจึงมีความสำคัญต่อภาษาศาสตร์ที่ขับเคลื่อนด้วยข้อมูล?
Key concepts
- คลังข้อมูล
- การเป็นตัวแทน
- ฐานข้อมูลคำศัพท์
- WordNet
- ชุดคำพ้องความหมาย (synset)
- พจนานุกรมสัทวิทยา
- คลังต้นไม้
- มาตรฐานการใส่คำอธิบายประกอบ
Key theories
- การทดลองเชิงประจักษ์ที่อิงคลังข้อมูล
- จุดยืนทางระเบียบวิธีที่ว่าการสรุปทางภาษาศาสตร์และพารามิเตอร์ของระบบควรมีพื้นฐานมาจากตัวอย่างขนาดใหญ่ของการใช้งานที่ได้รับการยืนยัน แทนที่จะอาศัยการพิจารณาภายในเพียงอย่างเดียว
- เครือข่ายคำศัพท์เชิงความหมาย
- การจัดระเบียบพจนานุกรมเป็นกราฟของความหมายที่เชื่อมโยงกันด้วยความสัมพันธ์ เช่น คำพ้องความหมายและคำที่มีความหมายกว้างกว่า (hypernymy) เช่นใน WordNet ซึ่งสนับสนุนงานตั้งแต่การแยกความกำกวมไปจนถึงความคล้ายคลึงทางความหมาย
History
การเปลี่ยนไปใช้วิธีการเชิงประจักษ์ในช่วงทศวรรษ 1990 ทำให้คลังข้อมูลและทรัพยากรคำศัพท์เป็นรากฐานสำคัญ WordNet ได้จัดหาฐานข้อมูลคำศัพท์เชิงความหมายที่สามารถนำกลับมาใช้ใหม่ได้ คลังข้อมูลที่สมดุล เช่น British National Corpus ได้กำหนดมาตรฐานการออกแบบ และผลงานของ Kilgarriff และ Grefenstette ได้ทำให้เว็บเองกลายเป็นคลังข้อมูลขนาดใหญ่สำหรับการศึกษาทางภาษาศาสตร์
Debates
- คลังข้อมูลที่สมดุลเทียบกับเว็บในฐานะคลังข้อมูล
- ไม่ว่าคลังข้อมูลที่สมดุลอย่างระมัดระวังหรือเว็บที่ยุ่งเหยิงแต่มีขนาดใหญ่จะตอบสนองการสอบสวนทางภาษาศาสตร์ได้ดีกว่ากัน ปัจจุบันสาขาต่าง ๆ มีแนวโน้มที่จะใช้ทั้งสองอย่าง โดยพิจารณาถึงการเป็นตัวแทนเทียบกับขนาด
Key figures
- Christiane Fellbaum
- Adam Kilgarriff
- Christopher Manning
- George Miller
Related topics
Seminal works
- fellbaum1998
- kilgarriff2003
- manning1999
Frequently asked questions
- อะไรคือสิ่งที่ทำให้คลังข้อมูลที่ดี?
- คลังข้อมูลที่ดีควรมีขนาดใหญ่พอสำหรับสถิติที่เชื่อถือได้และเป็นตัวแทนของความหลากหลายทางภาษาที่กำลังศึกษา พร้อมด้วยเอกสารที่ชัดเจนเกี่ยวกับแหล่งที่มา การสุ่มตัวอย่าง และคำอธิบายประกอบใด ๆ เพื่อให้สามารถตีความและทำซ้ำผลลัพธ์ได้