ScholarGate
ผู้ช่วย

คลังข้อมูลภาษาศาสตร์และคลังข้อมูลเว็บ

การศึกษาภาษาผ่านตัวอย่างข้อความจริงขนาดใหญ่: การสร้างและการสอบถามคลังข้อมูล การวัดการเกิดร่วมกันและความถี่ และการใช้ประโยชน์จากเว็บในฐานะแหล่งข้อมูลทางภาษาศาสตร์ขนาดใหญ่

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

คลังข้อมูลภาษาศาสตร์คือการศึกษาเชิงประจักษ์ของภาษาโดยอาศัยการรวบรวมข้อความที่เกิดขึ้นตามธรรมชาติอย่างเป็นระบบ ซึ่งวิเคราะห์ด้วยมาตรวัดความถี่ การค้นหาคำร่วม และความสัมพันธ์

Scope

ครอบคลุมการออกแบบ การรวบรวม และการวิเคราะห์คลังข้อความ — การสุ่มตัวอย่างและความสมดุล การค้นหาคำร่วมและการวิเคราะห์คำสำคัญ สถิติความถี่และการเกิดร่วมกัน เช่น ข้อมูลร่วมเชิงโต้ตอบ และการใช้เว็บเป็นคลังข้อมูล โดยกล่าวถึงทั้งคลังข้อมูลภาษาศาสตร์เชิงพรรณนาและการจัดหาข้อมูลสำหรับระบบคอมพิวเตอร์ แผนการกำกับคำอธิบายและคลังต้นไม้จะกล่าวถึงในหัวข้อที่เกี่ยวข้อง

Core questions

  • คลังข้อมูลถูกสุ่มตัวอย่างอย่างไรเพื่อเป็นตัวแทนของความหลากหลายทางภาษาอย่างยุติธรรม?
  • มาตรวัดความสัมพันธ์ เช่น ข้อมูลร่วมเชิงโต้ตอบ เปิดเผยการเกิดร่วมกันได้อย่างไร?
  • ประโยชน์และข้อเสียของการใช้เว็บเป็นคลังข้อมูลคืออะไร?
  • การค้นหาคำร่วมสนับสนุนการวิเคราะห์ทางภาษาศาสตร์และพจนานุกรมอย่างไร?

Key concepts

  • การออกแบบคลังข้อมูล
  • การค้นหาคำร่วม
  • การเกิดร่วมกัน
  • ข้อมูลร่วมเชิงโต้ตอบแบบจุด
  • การกระจายความถี่
  • การวิเคราะห์คำสำคัญ
  • เว็บในฐานะคลังข้อมูล
  • คลังข้อมูลที่สมดุล

Key theories

มาตรวัดความสัมพันธ์สำหรับการเกิดร่วมกัน
การใช้สถิติ เช่น ข้อมูลร่วมเชิงโต้ตอบแบบจุด เพื่อตรวจจับคู่คำที่เกิดขึ้นร่วมกันบ่อยกว่าที่โอกาสจะคาดการณ์ไว้ ซึ่งเผยให้เห็นการเกิดร่วมกันและสนับสนุนการจัดทำพจนานุกรม
เว็บในฐานะคลังข้อมูล
การปฏิบัติต่อเว็บในฐานะคลังข้อมูลขนาดใหญ่ แม้ว่าจะไม่มีการควบคุม ซึ่งช่วยให้สามารถศึกษาปรากฏการณ์ที่หายากและความหลากหลายที่มีทรัพยากรน้อย ในขณะเดียวกันก็ก่อให้เกิดคำถามเกี่ยวกับความเป็นตัวแทน

History

คลังข้อมูลภาษาศาสตร์เติบโตมาจากการดำเนินโครงการพจนานุกรมของ Sinclair และการสร้างคลังข้อมูลที่สมดุล ในขณะที่ผลงานของ Church และ Hanks ในปี 1989 เกี่ยวกับข้อมูลร่วมเชิงโต้ตอบได้นำมาตรวัดความสัมพันธ์ทางสถิติมาสู่กระแสหลัก ต่อมา Kilgarriff และ Grefenstette ได้กำหนดให้เว็บเป็นคลังข้อมูลที่ถูกต้อง แม้จะมีเสียงรบกวน แต่ก็มีขนาดที่ไม่เคยมีมาก่อน

Debates

ความเป็นตัวแทนของข้อมูลเว็บ
คลังข้อมูลเว็บมีขนาดใหญ่แต่ไม่สมดุลและยากที่จะระบุลักษณะ ทำให้เกิดการถกเถียงว่าข้อสรุปที่ได้จากคลังข้อมูลเหล่านี้สามารถสรุปไปสู่ภาษาโดยรวมได้มากน้อยเพียงใด

Key figures

  • Adam Kilgarriff
  • Kenneth Church
  • Patrick Hanks
  • John Sinclair

Related topics

Seminal works

  • church1989
  • kilgarriff2003

Frequently asked questions

การเกิดร่วมกันคืออะไร?
การเกิดร่วมกันคือคู่หรือกลุ่มคำที่มักจะเกิดขึ้นร่วมกันบ่อยกว่าที่โอกาสจะคาดการณ์ไว้ เช่น 'strong tea' แทนที่จะเป็น 'powerful tea' มาตรวัดความสัมพันธ์ช่วยตรวจจับสิ่งเหล่านี้ได้โดยอัตโนมัติ

Methods for this concept

Related concepts