การถดถอยโลจิสติกเป็นการถดถอยหรือวิธีการจำแนกประเภท?

แม้จะมีชื่อ แต่การถดถอยโลจิสติกใช้สำหรับการจำแนกประเภท โดยจะสร้างแบบจำลองความน่าจะเป็นที่อินพุตเป็นของคลาส และกฎการตัดสินใจจะแปลงความน่าจะเป็นนั้นเป็นป้ายกำกับที่คาดการณ์ไว้

ทำไมเพื่อนบ้านใกล้ที่สุด k ตัวจึงไม่จำเป็นต้องมีขั้นตอนการฝึกอบรม?

เพื่อนบ้านใกล้ที่สุด k ตัวจะจัดเก็บข้อมูลการฝึกอบรมและจำแนกจุดใหม่โดยการค้นหาตัวอย่างที่จัดเก็บไว้ที่ใกล้ที่สุดในเวลาที่ทำนาย ไม่มีแบบจำลองที่ปรับให้เหมาะสมอย่างชัดเจน ซึ่งทำให้การฝึกอบรมเป็นเรื่องง่าย แต่การทำนายอาจช้าและใช้หน่วยความจำมาก

อัลกอริทึมการจำแนกประเภท

อัลกอริทึมการจำแนกประเภทจะกำหนดอินพุตให้กับหนึ่งในชุดของหมวดหมู่ที่มีจำนวนจำกัด โดยการเรียนรู้ขอบเขตการตัดสินใจหรือการประมาณความน่าจะเป็นของคลาสจากตัวอย่างที่มีป้ายกำกับ

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

อัลกอริทึมการจำแนกประเภทเรียนรู้จากคู่ของอินพุต-ป้ายกำกับ ซึ่งเป็นกฎที่แมปอินพุตใหม่แต่ละรายการไปยังคลาสที่ไม่ต่อเนื่อง; แนวทางเชิงสร้างแบบจำลองการกระจายของอินพุตภายในแต่ละคลาสและใช้กฎของเบย์ ในขณะที่แนวทางเชิงจำแนกแบบจำลองขอบเขตของคลาสหรือความน่าจะเป็นภายหลังโดยตรง

Scope

หัวข้อนี้ครอบคลุมงานที่มีผู้สอนในการทำนายป้ายกำกับเชิงหมวดหมู่: ตัวจำแนกประเภทเชิงสร้างความน่าจะเป็น เช่น ไบเอสแบบไร้เดียงสา (naive Bayes) และการวิเคราะห์จำแนกประเภทแบบเกาส์เซียน (Gaussian discriminant analysis), ตัวจำแนกประเภทเชิงจำแนก เช่น การถดถอยโลจิสติก (logistic regression), วิธีการที่อิงตามตัวอย่าง เช่น เพื่อนบ้านใกล้ที่สุด k ตัว (k-nearest neighbors), และแนวคิดของขอบเขตการตัดสินใจ, ความน่าจะเป็นของคลาสภายหลัง (posterior class probability), และตัวจำแนกประเภทที่เหมาะสมที่สุดแบบเบย์ (Bayes-optimal classifier) ที่ลดข้อผิดพลาดให้น้อยที่สุด

Core questions

ขอบเขตการตัดสินใจระหว่างคลาสถูกประมาณจากข้อมูลที่มีป้ายกำกับได้อย่างไร?
เมื่อใดที่ตัวจำแนกประเภทควรสร้างแบบจำลองการกระจายแบบมีเงื่อนไขของคลาสเทียบกับความน่าจะเป็นภายหลังโดยตรง?
ข้อผิดพลาดที่เหมาะสมที่สุดแบบเบย์คืออะไร และตัวจำแนกประเภทที่เรียนรู้มาสามารถเข้าใกล้ข้อผิดพลาดนั้นได้มากแค่ไหน?
ปัญหาหลายคลาสถูกลดทอนหรือแก้ไขควบคู่ไปกับการจำแนกประเภทแบบไบนารีได้อย่างไร?

Key theories

การจำแนกประเภทที่เหมาะสมที่สุดแบบเบย์: การกำหนดอินพุตแต่ละรายการให้กับคลาสที่มีความน่าจะเป็นภายหลังสูงสุดจะช่วยลดข้อผิดพลาดในการจำแนกประเภทที่คาดหวังให้น้อยที่สุด ซึ่งกำหนดค่าเหมาะสมที่สุดทางทฤษฎีที่ตัวจำแนกประเภทเชิงปฏิบัติประมาณค่า
แบบจำลองเชิงสร้างเทียบกับแบบจำลองเชิงจำแนก: ไบเอสแบบไร้เดียงสาและการวิเคราะห์จำแนกประเภทสร้างแบบจำลองว่าข้อมูลถูกสร้างขึ้นอย่างไรในแต่ละคลาส ในขณะที่การถดถอยโลจิสติกสร้างแบบจำลองความน่าจะเป็นภายหลังของคลาสโดยตรง ซึ่งเป็นความแตกต่างที่ส่งผลต่อประสิทธิภาพของข้อมูลและความทนทานต่อการระบุแบบจำลองที่ผิดพลาด
การจำแนกประเภทเพื่อนบ้านใกล้ที่สุด: การจำแนกประเภทโดยใช้ป้ายกำกับของจุดฝึกอบรมที่อยู่ใกล้เคียงเป็นกฎที่ไม่ใช่พารามิเตอร์ที่เรียบง่าย ซึ่งข้อผิดพลาดถูกจำกัดแบบอสมมาตรไม่เกินสองเท่าของข้อผิดพลาดของเบย์ แสดงให้เห็นว่าข้อมูลท้องถิ่นเพียงอย่างเดียวก็มีประสิทธิภาพได้

Clinical relevance

การจำแนกประเภทเป็นเครื่องมือสำคัญของการเรียนรู้ของเครื่องประยุกต์ ซึ่งอยู่เบื้องหลังการตรวจจับสแปมอีเมล, การวิเคราะห์ความรู้สึก, การติดป้ายกำกับรูปภาพ, การตรวจจับการฉ้อโกง, และการวินิจฉัยด้วยคอมพิวเตอร์; การทำความเข้าใจค่าเหมาะสมที่สุดของเบย์ (Bayes optimum) และความแตกต่างระหว่างเชิงสร้างและเชิงจำแนก (generative-discriminative distinction) จะช่วยในการเลือกวิธีการและการตีความผลลัพธ์ความน่าจะเป็นของคลาส

History

ตัวจำแนกประเภทในยุคแรกๆ ได้แก่ การจำแนกประเภทเชิงเส้นของฟิชเชอร์ (Fisher's linear discriminant) และกฎเพื่อนบ้านใกล้ที่สุด (nearest-neighbor rule) ที่วิเคราะห์โดย Cover และ Hart ในปี 1967 การถดถอยโลจิสติกได้ย้ายจากสถิติมาสู่การเรียนรู้ของเครื่อง และไบเอสแบบไร้เดียงสาและการวิเคราะห์จำแนกประเภทได้กลายเป็นพื้นฐานเชิงความน่าจะเป็นมาตรฐาน ซึ่งทั้งหมดนี้ได้รวมเข้าด้วยกันในภายหลังภายใต้กรอบของการประมาณความน่าจะเป็นของคลาสภายหลัง

Key figures

Thomas Cover
Peter Hart
Christopher Bishop

Seminal works

cover1967
bishop2006
hastie2009

Frequently asked questions

การถดถอยโลจิสติกเป็นการถดถอยหรือวิธีการจำแนกประเภท?: แม้จะมีชื่อ แต่การถดถอยโลจิสติกใช้สำหรับการจำแนกประเภท โดยจะสร้างแบบจำลองความน่าจะเป็นที่อินพุตเป็นของคลาส และกฎการตัดสินใจจะแปลงความน่าจะเป็นนั้นเป็นป้ายกำกับที่คาดการณ์ไว้
ทำไมเพื่อนบ้านใกล้ที่สุด k ตัวจึงไม่จำเป็นต้องมีขั้นตอนการฝึกอบรม?: เพื่อนบ้านใกล้ที่สุด k ตัวจะจัดเก็บข้อมูลการฝึกอบรมและจำแนกจุดใหม่โดยการค้นหาตัวอย่างที่จัดเก็บไว้ที่ใกล้ที่สุดในเวลาที่ทำนาย ไม่มีแบบจำลองที่ปรับให้เหมาะสมอย่างชัดเจน ซึ่งทำให้การฝึกอบรมเป็นเรื่องง่าย แต่การทำนายอาจช้าและใช้หน่วยความจำมาก