มีอัลกอริธึมตามสถิติสองประเภทดังต่อไปนี้ -
-
การถดถอย − ปัญหาการถดถอยเกี่ยวข้องกับการประเมินค่าเอาต์พุตที่อยู่บนค่าอินพุต เมื่อใช้สำหรับการจัดประเภท ค่าอินพุตคือค่าจากฐานข้อมูล และค่าเอาต์พุตจะกำหนดคลาส สามารถใช้การถดถอยเพื่อชี้แจงปัญหาการจำแนกประเภท แต่ใช้สำหรับแอปพลิเคชันต่างๆ รวมถึงการพยากรณ์ รูปแบบพื้นฐานของการถดถอยคือการถดถอยเชิงเส้นอย่างง่ายที่มีเพียงหนึ่งตัวทำนายและการทำนาย
การถดถอยสามารถใช้ในการจำแนกประเภทได้โดยใช้สองวิธีดังต่อไปนี้ -
-
ดิวิชั่น − ข้อมูลจะถูกแบ่งออกเป็นภูมิภาคที่อยู่ในชั้นเรียน
-
การทำนาย − สูตรถูกสร้างขึ้นเพื่อทำนายค่าของคลาสเอาต์พุต
-
-
การจำแนกแบบเบย์ − ตัวแยกประเภททางสถิติใช้สำหรับการจัดประเภท การจำแนกประเภทเบย์ขึ้นอยู่กับทฤษฎีบทเบย์ ตัวแยกประเภทแบบเบย์จะมีประสิทธิภาพและความเร็วสูงเมื่อใช้กับฐานข้อมูลที่มีระดับสูง
ทฤษฎีบทเบย์ - ให้ X เป็นทูเพิลข้อมูล ในวิธีการแบบเบย์เซียน X จะถือเป็น "หลักฐาน" ให้ H เป็นสมมติฐานบางประการ รวมทั้งข้อมูล tuple X เป็นของคลาส C โดยเฉพาะ ความน่าจะเป็น P (H|X) ถูกกำหนดให้กำหนดข้อมูล ความน่าจะเป็น P (H|X) นี้คือความน่าจะเป็นที่อิทธิพลของสมมติฐาน H ได้ให้ "หลักฐาน" หรือข้อมูลทูเพิลที่สังเกตเห็น X
P (H|X) คือความน่าจะเป็นภายหลังของ H ที่มีเงื่อนไขบน X ตัวอย่างเช่น พิจารณาธรรมชาติของข้อมูล tuples ที่จำกัดเฉพาะผู้ใช้ที่กำหนดโดยอายุและรายได้ของแอตทริบิวต์ โดยทั่วไป และ X คือผู้ใช้อายุ 30 ปีที่มีมูลค่า Rs 20,000 รายได้ สมมติว่า H เป็นสมมติฐานที่ผู้ใช้จะซื้อคอมพิวเตอร์ ดังนั้น P (H|X) จึงย้อนกลับความน่าจะเป็นที่ผู้ใช้ X จะซื้อคอมพิวเตอร์โดยพิจารณาจากอายุและรายได้ของผู้ใช้
P (H) คือความน่าจะเป็นก่อนหน้าของ H ตัวอย่างเช่น นี่คือความน่าจะเป็นที่ผู้ใช้รายใดรายหนึ่งจะซื้อคอมพิวเตอร์ โดยไม่คำนึงถึงอายุ รายได้ หรือข้อมูลอื่นๆ ความน่าจะเป็นหลัง P (H|X) อยู่บนข้อมูลมากกว่าความน่าจะเป็นก่อนหน้า P (H) ซึ่งไม่มี X
ในทำนองเดียวกัน P (X|H) คือความน่าจะเป็นหลังของ X ที่ปรับเงื่อนไขบน H ซึ่งก็คือความน่าจะเป็นที่ผู้ใช้ X อายุ 30 ปีและได้รับ Rs 20,000.
P (H), P (X|H) และ P (X) สามารถวัดได้จากข้อมูลที่กำหนด ทฤษฎีบทเบย์สนับสนุนวิธีคำนวณความน่าจะเป็นหลัง P (H|X) จาก P (H), P (X|H) และ P(X) มอบให้โดย
$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$