ScholarGate
ผู้ช่วย

ทรัพยากรคำศัพท์และคลังข้อมูล

ฐานข้อมูลและความรู้ที่ภาษาศาสตร์คอมพิวเตอร์เชิงประจักษ์ต้องพึ่งพา: คลังข้อความ, ฐานข้อมูลคำศัพท์และออนโทโลยี, การประมวลผลโครงสร้างคำด้วยคอมพิวเตอร์, และคลังต้นไม้ที่ใส่คำอธิบายประกอบอย่างละเอียด

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

ทรัพยากรคำศัพท์และคลังข้อมูลคือชุดข้อมูลภาษาที่มีโครงสร้าง — ข้อความ, พจนานุกรม, และคำอธิบายประกอบ — ที่สร้างขึ้นเพื่อสนับสนุนการวิเคราะห์เชิงประจักษ์และการฝึกอบรมระบบประมวลผลภาษา

Scope

ครอบคลุมการสร้าง การดูแลจัดการ และการใช้ทรัพยากรทางภาษา — คลังข้อมูลที่สมดุลและคลังข้อมูลเว็บ, ฐานข้อมูลคำศัพท์เชิงความหมาย เช่น WordNet, สัทวิทยาเชิงคำนวณและพจนานุกรม, และคลังต้นไม้ที่ใส่คำอธิบายประกอบ กล่าวถึงการออกแบบคลังข้อมูล, การเป็นตัวแทน, มาตรฐานการใส่คำอธิบายประกอบ, และบทบาทของทรัพยากรในการฝึกอบรมและประเมินระบบ การสร้างแบบจำลองเชิงอัลกอริทึมที่ใช้ทรัพยากรเหล่านี้จะครอบคลุมในส่วนอื่น ๆ

Sub-topics

Core questions

  • คลังข้อมูลได้รับการออกแบบให้เป็นตัวแทนและสมดุลได้อย่างไร?
  • ความหมายของคำสามารถจัดระเบียบเป็นฐานข้อมูลคำศัพท์ที่เครื่องอ่านได้ได้อย่างไร?
  • โครงสร้างคำถูกนำเสนอในเชิงคอมพิวเตอร์อย่างไรในภาษาที่มีสัทวิทยาที่ซับซ้อน?
  • เหตุใดคลังต้นไม้ที่มีคำอธิบายประกอบจึงมีความสำคัญต่อภาษาศาสตร์ที่ขับเคลื่อนด้วยข้อมูล?

Key concepts

  • คลังข้อมูล
  • การเป็นตัวแทน
  • ฐานข้อมูลคำศัพท์
  • WordNet
  • ชุดคำพ้องความหมาย (synset)
  • พจนานุกรมสัทวิทยา
  • คลังต้นไม้
  • มาตรฐานการใส่คำอธิบายประกอบ

Key theories

การทดลองเชิงประจักษ์ที่อิงคลังข้อมูล
จุดยืนทางระเบียบวิธีที่ว่าการสรุปทางภาษาศาสตร์และพารามิเตอร์ของระบบควรมีพื้นฐานมาจากตัวอย่างขนาดใหญ่ของการใช้งานที่ได้รับการยืนยัน แทนที่จะอาศัยการพิจารณาภายในเพียงอย่างเดียว
เครือข่ายคำศัพท์เชิงความหมาย
การจัดระเบียบพจนานุกรมเป็นกราฟของความหมายที่เชื่อมโยงกันด้วยความสัมพันธ์ เช่น คำพ้องความหมายและคำที่มีความหมายกว้างกว่า (hypernymy) เช่นใน WordNet ซึ่งสนับสนุนงานตั้งแต่การแยกความกำกวมไปจนถึงความคล้ายคลึงทางความหมาย

History

การเปลี่ยนไปใช้วิธีการเชิงประจักษ์ในช่วงทศวรรษ 1990 ทำให้คลังข้อมูลและทรัพยากรคำศัพท์เป็นรากฐานสำคัญ WordNet ได้จัดหาฐานข้อมูลคำศัพท์เชิงความหมายที่สามารถนำกลับมาใช้ใหม่ได้ คลังข้อมูลที่สมดุล เช่น British National Corpus ได้กำหนดมาตรฐานการออกแบบ และผลงานของ Kilgarriff และ Grefenstette ได้ทำให้เว็บเองกลายเป็นคลังข้อมูลขนาดใหญ่สำหรับการศึกษาทางภาษาศาสตร์

Debates

คลังข้อมูลที่สมดุลเทียบกับเว็บในฐานะคลังข้อมูล
ไม่ว่าคลังข้อมูลที่สมดุลอย่างระมัดระวังหรือเว็บที่ยุ่งเหยิงแต่มีขนาดใหญ่จะตอบสนองการสอบสวนทางภาษาศาสตร์ได้ดีกว่ากัน ปัจจุบันสาขาต่าง ๆ มีแนวโน้มที่จะใช้ทั้งสองอย่าง โดยพิจารณาถึงการเป็นตัวแทนเทียบกับขนาด

Key figures

  • Christiane Fellbaum
  • Adam Kilgarriff
  • Christopher Manning
  • George Miller

Related topics

Seminal works

  • fellbaum1998
  • kilgarriff2003
  • manning1999

Frequently asked questions

อะไรคือสิ่งที่ทำให้คลังข้อมูลที่ดี?
คลังข้อมูลที่ดีควรมีขนาดใหญ่พอสำหรับสถิติที่เชื่อถือได้และเป็นตัวแทนของความหลากหลายทางภาษาที่กำลังศึกษา พร้อมด้วยเอกสารที่ชัดเจนเกี่ยวกับแหล่งที่มา การสุ่มตัวอย่าง และคำอธิบายประกอบใด ๆ เพื่อให้สามารถตีความและทำซ้ำผลลัพธ์ได้

Methods for this concept

Related concepts