สไตโลเมทรีและการระบุผู้แต่ง
นักเขียนทิ้งร่องรอยทางสถิติไว้ ความถี่ของคำเล็กๆ ที่ใช้โดยไม่รู้ตัว เช่น the, of, and มีความแตกต่างกันเพียงเล็กน้อยในงานเขียนของผู้เขียนคนเดียวกัน แต่จะแตกต่างกันระหว่างผู้เขียนแต่ละคน สไตโลเมทรีจึงใช้ประโยชน์จากสิ่งนี้เพื่อยุติข้อพิพาทเรื่องการระบุผู้แต่งและเพื่อศึกษาลักษณะการเขียนเชิงปริมาณ
Definition
การวิเคราะห์ทางสถิติของคุณลักษณะที่สามารถวัดได้ของรูปแบบการเขียน เพื่อจำแนกลักษณะของผู้เขียนและเพื่อระบุผู้แต่งข้อความที่มีความไม่แน่นอนหรือข้อพิพาทเรื่องผู้แต่ง
Scope
ครอบคลุมการวัดลักษณะการเขียนเชิงปริมาณและการนำไปใช้ในการระบุผู้แต่งข้อความ: การเลือกคุณลักษณะทางสไตลิสติกส์, การวัดระยะทางและการจำแนกประเภท เช่น Burrows's Delta, และการตรวจสอบความถูกต้องของการอ้างสิทธิ์ในการระบุผู้แต่ง รวมถึงประวัติของสาขาวิชานี้ตั้งแต่ Federalist Papers ไปจนถึงวิธีการเรียนรู้ของเครื่องจักรสมัยใหม่ และการประยุกต์ใช้ในทางนิติวิทยาศาสตร์
Core questions
- คุณลักษณะของข้อความใดที่สามารถจับลักษณะการเขียนที่โดดเด่นของผู้เขียนได้ดีที่สุด?
- จะทดสอบและตรวจสอบความถูกต้องของการอ้างสิทธิ์ในการระบุผู้แต่งได้อย่างไร?
- เหตุใดความถี่ของคำฟังก์ชันจึงมีประสิทธิภาพมากในการระบุผู้แต่ง?
- ข้อจำกัดของสไตโลเมทรีในประเภทงานเขียน ช่วงเวลา และการแปลคืออะไร?
Key concepts
- คำฟังก์ชัน
- Burrows's Delta
- การเลือกคุณลักษณะ
- การจำแนกประเภท
- การตรวจสอบความถูกต้องแบบไขว้
Key theories
- ความถี่ของคำฟังก์ชันเป็นสัญญาณของผู้เขียน
- Mosteller และ Wallace แสดงให้เห็นว่าความถี่ของคำฟังก์ชันทั่วไปสามารถแยกแยะผู้เขียนได้ โดยใช้การอนุมานแบบเบย์เซียนเพื่อระบุผู้แต่ง Federalist Papers ที่เป็นข้อพิพาท
- Burrows's Delta
- Burrows ได้นำเสนอ Delta ซึ่งเป็นการวัดระยะทางของคำที่พบบ่อยที่สุด ซึ่งได้กลายเป็นวิธีการมาตรฐานที่แข็งแกร่งสำหรับการจัดอันดับผู้เขียนที่เป็นไปได้
- การระบุผู้แต่งสมัยใหม่เป็นการจำแนกประเภท
- Stamatatos ได้สำรวจว่าการระบุผู้แต่งถูกกำหนดให้เป็นปัญหาการจำแนกข้อความอย่างไร โดยเปรียบเทียบชุดคุณลักษณะและวิธีการเรียนรู้ของเครื่องจักร
History
การศึกษาเชิงปริมาณเกี่ยวกับการระบุผู้แต่งมีมาตั้งแต่ศตวรรษที่สิบเก้า แต่การศึกษาของ Mosteller และ Wallace ในปี 1964 เรื่อง Federalist Papers ได้วางรากฐานแนวทางสถิติสมัยใหม่ Burrows's Delta (2002) ได้มอบการวัดผลที่ได้รับการยอมรับอย่างกว้างขวางให้กับสาขาวิชานี้ และการสำรวจต่างๆ เช่น Stamatatos (2009) ได้แสดงให้เห็นถึงการเปลี่ยนแปลงไปสู่การจำแนกประเภทด้วยการเรียนรู้ของเครื่องจักรและการใช้งานทางนิติวิทยาศาสตร์
Debates
- ความน่าเชื่อถือและความมั่นใจในการระบุผู้แต่ง
- วิธีการสไตโลเมทรีอาจมีประสิทธิภาพแต่ก็มีความอ่อนไหวต่อขนาดของคลังข้อมูล ประเภทงานเขียน และการประมวลผลล่วงหน้า ซึ่งทำให้เกิดคำถามเกี่ยวกับความมั่นใจที่การระบุผู้แต่งควรได้รับ โดยเฉพาะอย่างยิ่งในบริบททางนิติวิทยาศาสตร์
Key figures
- Frederick Mosteller
- David Wallace
- John Burrows
- Efstathios Stamatatos
Related topics
Seminal works
- mosteller1964
- burrows2002
- stamatatos2009
Frequently asked questions
- เหตุใดจึงมุ่งเน้นไปที่คำเล็กๆ เช่น 'the' แทนที่จะเป็นคำศัพท์เฉพาะที่โดดเด่น?
- คำศัพท์เฉพาะที่โดดเด่นมักจะสะท้อนถึงหัวข้อของข้อความมากกว่าผู้เขียน คำฟังก์ชันทั่วไปถูกใช้โดยไม่รู้ตัวและมีความถี่คงที่ในงานเขียนของผู้เขียนคนเดียวกัน แต่จะแตกต่างกันระหว่างผู้เขียน ทำให้เป็นสัญญาณของลักษณะการเขียนที่น่าเชื่อถือและไม่ขึ้นกับหัวข้อ