คลังข้อมูลภาษาศาสตร์และคลังข้อมูลเว็บ
การศึกษาภาษาผ่านตัวอย่างข้อความจริงขนาดใหญ่: การสร้างและการสอบถามคลังข้อมูล การวัดการเกิดร่วมกันและความถี่ และการใช้ประโยชน์จากเว็บในฐานะแหล่งข้อมูลทางภาษาศาสตร์ขนาดใหญ่
Definition
คลังข้อมูลภาษาศาสตร์คือการศึกษาเชิงประจักษ์ของภาษาโดยอาศัยการรวบรวมข้อความที่เกิดขึ้นตามธรรมชาติอย่างเป็นระบบ ซึ่งวิเคราะห์ด้วยมาตรวัดความถี่ การค้นหาคำร่วม และความสัมพันธ์
Scope
ครอบคลุมการออกแบบ การรวบรวม และการวิเคราะห์คลังข้อความ — การสุ่มตัวอย่างและความสมดุล การค้นหาคำร่วมและการวิเคราะห์คำสำคัญ สถิติความถี่และการเกิดร่วมกัน เช่น ข้อมูลร่วมเชิงโต้ตอบ และการใช้เว็บเป็นคลังข้อมูล โดยกล่าวถึงทั้งคลังข้อมูลภาษาศาสตร์เชิงพรรณนาและการจัดหาข้อมูลสำหรับระบบคอมพิวเตอร์ แผนการกำกับคำอธิบายและคลังต้นไม้จะกล่าวถึงในหัวข้อที่เกี่ยวข้อง
Core questions
- คลังข้อมูลถูกสุ่มตัวอย่างอย่างไรเพื่อเป็นตัวแทนของความหลากหลายทางภาษาอย่างยุติธรรม?
- มาตรวัดความสัมพันธ์ เช่น ข้อมูลร่วมเชิงโต้ตอบ เปิดเผยการเกิดร่วมกันได้อย่างไร?
- ประโยชน์และข้อเสียของการใช้เว็บเป็นคลังข้อมูลคืออะไร?
- การค้นหาคำร่วมสนับสนุนการวิเคราะห์ทางภาษาศาสตร์และพจนานุกรมอย่างไร?
Key concepts
- การออกแบบคลังข้อมูล
- การค้นหาคำร่วม
- การเกิดร่วมกัน
- ข้อมูลร่วมเชิงโต้ตอบแบบจุด
- การกระจายความถี่
- การวิเคราะห์คำสำคัญ
- เว็บในฐานะคลังข้อมูล
- คลังข้อมูลที่สมดุล
Key theories
- มาตรวัดความสัมพันธ์สำหรับการเกิดร่วมกัน
- การใช้สถิติ เช่น ข้อมูลร่วมเชิงโต้ตอบแบบจุด เพื่อตรวจจับคู่คำที่เกิดขึ้นร่วมกันบ่อยกว่าที่โอกาสจะคาดการณ์ไว้ ซึ่งเผยให้เห็นการเกิดร่วมกันและสนับสนุนการจัดทำพจนานุกรม
- เว็บในฐานะคลังข้อมูล
- การปฏิบัติต่อเว็บในฐานะคลังข้อมูลขนาดใหญ่ แม้ว่าจะไม่มีการควบคุม ซึ่งช่วยให้สามารถศึกษาปรากฏการณ์ที่หายากและความหลากหลายที่มีทรัพยากรน้อย ในขณะเดียวกันก็ก่อให้เกิดคำถามเกี่ยวกับความเป็นตัวแทน
History
คลังข้อมูลภาษาศาสตร์เติบโตมาจากการดำเนินโครงการพจนานุกรมของ Sinclair และการสร้างคลังข้อมูลที่สมดุล ในขณะที่ผลงานของ Church และ Hanks ในปี 1989 เกี่ยวกับข้อมูลร่วมเชิงโต้ตอบได้นำมาตรวัดความสัมพันธ์ทางสถิติมาสู่กระแสหลัก ต่อมา Kilgarriff และ Grefenstette ได้กำหนดให้เว็บเป็นคลังข้อมูลที่ถูกต้อง แม้จะมีเสียงรบกวน แต่ก็มีขนาดที่ไม่เคยมีมาก่อน
Debates
- ความเป็นตัวแทนของข้อมูลเว็บ
- คลังข้อมูลเว็บมีขนาดใหญ่แต่ไม่สมดุลและยากที่จะระบุลักษณะ ทำให้เกิดการถกเถียงว่าข้อสรุปที่ได้จากคลังข้อมูลเหล่านี้สามารถสรุปไปสู่ภาษาโดยรวมได้มากน้อยเพียงใด
Key figures
- Adam Kilgarriff
- Kenneth Church
- Patrick Hanks
- John Sinclair
Related topics
Seminal works
- church1989
- kilgarriff2003
Frequently asked questions
- การเกิดร่วมกันคืออะไร?
- การเกิดร่วมกันคือคู่หรือกลุ่มคำที่มักจะเกิดขึ้นร่วมกันบ่อยกว่าที่โอกาสจะคาดการณ์ไว้ เช่น 'strong tea' แทนที่จะเป็น 'powerful tea' มาตรวัดความสัมพันธ์ช่วยตรวจจับสิ่งเหล่านี้ได้โดยอัตโนมัติ