Support Vector Machine คืออะไร?

วิธีการจัดประเภทที่ได้รับการตรวจสอบอย่างละเอียดคือ support vector machine (SVM) แนวทางนี้มีรากฐานมาจากทฤษฎีการเรียนรู้ทางสถิติและได้แสดงผลเชิงประจักษ์ที่มีแนวโน้มดีในการใช้งานจริงหลายอย่าง ตั้งแต่การระบุตัวเลขที่เขียนด้วยลายมือไปจนถึงการจำแนกข้อความ

SVM ยังทำงานกับข้อมูลมิติสูงและป้องกันการสาปแช่งของปัญหามิติ มีองค์ประกอบที่สองของแนวทางนี้คือ กำหนดขอบเขตการตัดสินใจโดยใช้ชุดย่อยของอินสแตนซ์การฝึกอบรม ที่เรียกว่าเวกเตอร์สนับสนุน

สามารถเตรียม SVM เพื่อดูไฮเปอร์เพลนประเภทนี้ได้อย่างชัดเจนในข้อมูลที่แยกเชิงเส้นได้ สามารถทำได้โดยแสดงให้เห็นว่าวิธีการ SVM สามารถดำเนินการต่อกับข้อมูลที่ไม่สามารถแยกเชิงเส้นได้ ชุดข้อมูลสามารถแยกเชิงเส้นได้ กล่าวคือ มันสามารถค้นพบไฮเปอร์เพลน รวมถึงสี่เหลี่ยมทั้งหมดที่อยู่ด้านหนึ่งของไฮเปอร์เพลนและวงกลมทั้งหมดที่อยู่ด้านต่างๆ กัน

ตัวแยกประเภทควรเลือกไฮเปอร์เพลนเหล่านี้ตัวใดตัวหนึ่งเพื่ออธิบายขอบเขตการตัดสินใจ ขึ้นอยู่กับว่าพวกมันจะถูกนำไปใช้ในอินสแตนซ์ทดสอบได้ดีเพียงใด พิจารณาสองขอบเขตการตัดสินใจ B1 และ B2 ขอบเขตการตัดสินใจทั้งสองสามารถแยกอินสแตนซ์การฝึกอบรมออกเป็นชั้นเรียนเฉพาะโดยไม่ต้องดำเนินการผิดพลาดในการจัดประเภทผิด ขอบเขตการตัดสินใจ Bi แต่ละรายการเกี่ยวข้องกับไฮเปอร์เพลนคู่หนึ่ง ซึ่งระบุเป็น bi1 และ bi2 ตามลำดับ

Bi1 ได้มาโดยการเปลี่ยนไฮเปอร์เพลนคู่ขนานออกจากขอบเขตการตัดสินใจ จนกระทั่งมันสื่อสารจตุรัสที่ใกล้ที่สุด ในขณะที่ bi2 ได้มาโดยการเปลี่ยนไฮเปอร์เพลนจนกว่าจะสื่อสารถึงวงกลมที่ใกล้ที่สุด ระยะห่างระหว่างไฮเปอร์เพลนทั้งสองนี้เรียกว่าระยะขอบของตัวแยกประเภท

ขอบเขตการตัดสินใจที่มีระยะขอบสูงมีอิทธิพลต่อข้อผิดพลาดทั่วไปที่สูงกว่าขอบเขตที่มีระยะขอบต่ำ หากมาร์จิ้นมีขนาดเล็ก การรบกวนเล็กน้อยต่อขอบเขตการตัดสินใจอาจส่งผลกระทบที่สำคัญต่อการจำแนกประเภท

คำอธิบายที่เหมาะสมเกี่ยวกับระยะขอบของตัวแยกประเภทเชิงเส้นกับข้อผิดพลาดทั่วไปนั้นกำหนดโดยหลักการเรียนรู้ทางสถิติที่เรียกว่าการลดความเสี่ยงเชิงโครงสร้าง (SRM) หลักการนี้สนับสนุนขอบเขตบนของข้อผิดพลาดทั่วไปของตัวแยกประเภท (R) ในแง่ของข้อผิดพลาดการฝึกอบรม (Re) จำนวนตัวอย่างการฝึกอบรม (N) และความซับซ้อนของแบบจำลองที่เรียกว่าความจุ (h) อย่างเป็นหมวดหมู่มากขึ้นด้วยความน่าจะเป็น 1 - n ข้อผิดพลาดทั่วไปของลักษณนามอาจเลวร้ายที่สุด

$$\mathrm{R\leq\:R_e\:+\varphi(\frac{h}{N},\frac{1og(n)}{N})}$$

โดยที่ φ เป็นฟังก์ชันเพิ่มเสียงเดียวของความจุ h ผู้อ่านอาจคุ้นเคยกับความไม่เท่าเทียมกันก่อนหน้านี้ เนื่องจากเป็นการจำลองหลักการความยาวคำอธิบายขั้นต่ำ (MDL) SRM เป็นอีกแนวทางหนึ่งในการกำหนดข้อผิดพลาดทั่วไปเป็นการประนีประนอมระหว่างข้อผิดพลาดการฝึกอบรมและความซับซ้อนของแบบจำลอง