อัลกอริทึมการจำแนกประเภท
อัลกอริทึมการจำแนกประเภทจะกำหนดอินพุตให้กับหนึ่งในชุดของหมวดหมู่ที่มีจำนวนจำกัด โดยการเรียนรู้ขอบเขตการตัดสินใจหรือการประมาณความน่าจะเป็นของคลาสจากตัวอย่างที่มีป้ายกำกับ
Definition
อัลกอริทึมการจำแนกประเภทเรียนรู้จากคู่ของอินพุต-ป้ายกำกับ ซึ่งเป็นกฎที่แมปอินพุตใหม่แต่ละรายการไปยังคลาสที่ไม่ต่อเนื่อง; แนวทางเชิงสร้างแบบจำลองการกระจายของอินพุตภายในแต่ละคลาสและใช้กฎของเบย์ ในขณะที่แนวทางเชิงจำแนกแบบจำลองขอบเขตของคลาสหรือความน่าจะเป็นภายหลังโดยตรง
Scope
หัวข้อนี้ครอบคลุมงานที่มีผู้สอนในการทำนายป้ายกำกับเชิงหมวดหมู่: ตัวจำแนกประเภทเชิงสร้างความน่าจะเป็น เช่น ไบเอสแบบไร้เดียงสา (naive Bayes) และการวิเคราะห์จำแนกประเภทแบบเกาส์เซียน (Gaussian discriminant analysis), ตัวจำแนกประเภทเชิงจำแนก เช่น การถดถอยโลจิสติก (logistic regression), วิธีการที่อิงตามตัวอย่าง เช่น เพื่อนบ้านใกล้ที่สุด k ตัว (k-nearest neighbors), และแนวคิดของขอบเขตการตัดสินใจ, ความน่าจะเป็นของคลาสภายหลัง (posterior class probability), และตัวจำแนกประเภทที่เหมาะสมที่สุดแบบเบย์ (Bayes-optimal classifier) ที่ลดข้อผิดพลาดให้น้อยที่สุด
Core questions
- ขอบเขตการตัดสินใจระหว่างคลาสถูกประมาณจากข้อมูลที่มีป้ายกำกับได้อย่างไร?
- เมื่อใดที่ตัวจำแนกประเภทควรสร้างแบบจำลองการกระจายแบบมีเงื่อนไขของคลาสเทียบกับความน่าจะเป็นภายหลังโดยตรง?
- ข้อผิดพลาดที่เหมาะสมที่สุดแบบเบย์คืออะไร และตัวจำแนกประเภทที่เรียนรู้มาสามารถเข้าใกล้ข้อผิดพลาดนั้นได้มากแค่ไหน?
- ปัญหาหลายคลาสถูกลดทอนหรือแก้ไขควบคู่ไปกับการจำแนกประเภทแบบไบนารีได้อย่างไร?
Key theories
- การจำแนกประเภทที่เหมาะสมที่สุดแบบเบย์
- การกำหนดอินพุตแต่ละรายการให้กับคลาสที่มีความน่าจะเป็นภายหลังสูงสุดจะช่วยลดข้อผิดพลาดในการจำแนกประเภทที่คาดหวังให้น้อยที่สุด ซึ่งกำหนดค่าเหมาะสมที่สุดทางทฤษฎีที่ตัวจำแนกประเภทเชิงปฏิบัติประมาณค่า
- แบบจำลองเชิงสร้างเทียบกับแบบจำลองเชิงจำแนก
- ไบเอสแบบไร้เดียงสาและการวิเคราะห์จำแนกประเภทสร้างแบบจำลองว่าข้อมูลถูกสร้างขึ้นอย่างไรในแต่ละคลาส ในขณะที่การถดถอยโลจิสติกสร้างแบบจำลองความน่าจะเป็นภายหลังของคลาสโดยตรง ซึ่งเป็นความแตกต่างที่ส่งผลต่อประสิทธิภาพของข้อมูลและความทนทานต่อการระบุแบบจำลองที่ผิดพลาด
- การจำแนกประเภทเพื่อนบ้านใกล้ที่สุด
- การจำแนกประเภทโดยใช้ป้ายกำกับของจุดฝึกอบรมที่อยู่ใกล้เคียงเป็นกฎที่ไม่ใช่พารามิเตอร์ที่เรียบง่าย ซึ่งข้อผิดพลาดถูกจำกัดแบบอสมมาตรไม่เกินสองเท่าของข้อผิดพลาดของเบย์ แสดงให้เห็นว่าข้อมูลท้องถิ่นเพียงอย่างเดียวก็มีประสิทธิภาพได้
Clinical relevance
การจำแนกประเภทเป็นเครื่องมือสำคัญของการเรียนรู้ของเครื่องประยุกต์ ซึ่งอยู่เบื้องหลังการตรวจจับสแปมอีเมล, การวิเคราะห์ความรู้สึก, การติดป้ายกำกับรูปภาพ, การตรวจจับการฉ้อโกง, และการวินิจฉัยด้วยคอมพิวเตอร์; การทำความเข้าใจค่าเหมาะสมที่สุดของเบย์ (Bayes optimum) และความแตกต่างระหว่างเชิงสร้างและเชิงจำแนก (generative-discriminative distinction) จะช่วยในการเลือกวิธีการและการตีความผลลัพธ์ความน่าจะเป็นของคลาส
History
ตัวจำแนกประเภทในยุคแรกๆ ได้แก่ การจำแนกประเภทเชิงเส้นของฟิชเชอร์ (Fisher's linear discriminant) และกฎเพื่อนบ้านใกล้ที่สุด (nearest-neighbor rule) ที่วิเคราะห์โดย Cover และ Hart ในปี 1967 การถดถอยโลจิสติกได้ย้ายจากสถิติมาสู่การเรียนรู้ของเครื่อง และไบเอสแบบไร้เดียงสาและการวิเคราะห์จำแนกประเภทได้กลายเป็นพื้นฐานเชิงความน่าจะเป็นมาตรฐาน ซึ่งทั้งหมดนี้ได้รวมเข้าด้วยกันในภายหลังภายใต้กรอบของการประมาณความน่าจะเป็นของคลาสภายหลัง
Key figures
- Thomas Cover
- Peter Hart
- Christopher Bishop
Related topics
Seminal works
- cover1967
- bishop2006
- hastie2009
Frequently asked questions
- การถดถอยโลจิสติกเป็นการถดถอยหรือวิธีการจำแนกประเภท?
- แม้จะมีชื่อ แต่การถดถอยโลจิสติกใช้สำหรับการจำแนกประเภท โดยจะสร้างแบบจำลองความน่าจะเป็นที่อินพุตเป็นของคลาส และกฎการตัดสินใจจะแปลงความน่าจะเป็นนั้นเป็นป้ายกำกับที่คาดการณ์ไว้
- ทำไมเพื่อนบ้านใกล้ที่สุด k ตัวจึงไม่จำเป็นต้องมีขั้นตอนการฝึกอบรม?
- เพื่อนบ้านใกล้ที่สุด k ตัวจะจัดเก็บข้อมูลการฝึกอบรมและจำแนกจุดใหม่โดยการค้นหาตัวอย่างที่จัดเก็บไว้ที่ใกล้ที่สุดในเวลาที่ทำนาย ไม่มีแบบจำลองที่ปรับให้เหมาะสมอย่างชัดเจน ซึ่งทำให้การฝึกอบรมเป็นเรื่องง่าย แต่การทำนายอาจช้าและใช้หน่วยความจำมาก