Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

เหตุใด Naïve Bayesian จึงเรียกว่า Naïve


ตัวแยกประเภทแบบเบย์เป็นตัวแยกประเภททางสถิติ พวกเขาสามารถทำนายความน่าจะเป็นของการเป็นสมาชิกชั้นเรียน เช่น ความน่าจะเป็นที่กลุ่มตัวอย่างที่กำหนดเป็นของชั้นเรียนหนึ่งๆ ตัวแยกประเภทแบบเบย์ยังแสดงความแม่นยำและความเร็วสูงเมื่อนำไปใช้กับฐานข้อมูลขนาดใหญ่

เมื่อกำหนดคลาสแล้ว ระบบควรอนุมานกฎที่ควบคุมการจัดประเภท ดังนั้นระบบควรสามารถค้นหาคำอธิบายของแต่ละคลาสได้ คำอธิบายควรอ้างอิงถึงคุณลักษณะการทำนายของชุดการฝึกเท่านั้น เพื่อให้เฉพาะตัวอย่างในเชิงบวกเท่านั้นที่ควรเป็นไปตามคำอธิบาย ไม่ใช่ตัวอย่างเชิงลบ มีการกล่าวกันว่ากฎนั้นถูกต้องหากคำอธิบายครอบคลุมตัวอย่างเชิงบวกทั้งหมด และไม่มีการครอบคลุมตัวอย่างเชิงลบของชั้นเรียน

สมมติว่าการมีส่วนร่วมโดยแอตทริบิวต์ทั้งหมดเป็นอิสระและแต่ละองค์ประกอบมีส่วนทำให้เกิดปัญหาการจำแนกอย่างเท่าเทียมกัน ซึ่งเป็นรูปแบบการจัดประเภทง่ายๆ ที่เรียกว่าการจำแนก Naïve Bayes โดยการวิเคราะห์การมีส่วนร่วมของแอตทริบิวต์ "อิสระ" แต่ละรายการ จะกำหนดความน่าจะเป็นแบบมีเงื่อนไข การจัดประเภทจะทำโดยการรวมผลกระทบที่คุณลักษณะต่างๆ มีต่อการคาดการณ์ที่จะเกิดขึ้น

การจำแนกประเภท Naïve Bayes เรียกว่า Naïve เนื่องจากถือว่ามีความเป็นอิสระแบบมีเงื่อนไขของคลาส ผลกระทบของค่าแอตทริบิวต์ในคลาสที่กำหนดนั้นไม่ขึ้นกับค่าของแอตทริบิวต์อื่นๆ สมมติฐานนี้จัดทำขึ้นเพื่อลดต้นทุนในการคำนวณ ดังนั้นจึงถือว่าไร้เดียงสา

ทฤษฎีบทเบย์ - ให้ X เป็นทูเพิลข้อมูล ในแง่เบย์ X ถือเป็น "หลักฐาน" ให้ H เป็นสมมติฐานบางอย่าง เช่น ทูเพิลข้อมูล X อยู่ในคลาส C ที่ระบุ ความน่าจะเป็น P (H|X) ถูกกำหนดเพื่อจัดประเภทข้อมูล ความน่าจะเป็น P (H|X) นี้คือความน่าจะเป็นที่สมมติฐาน H ถือโดยให้ "หลักฐาน" หรือข้อมูลที่สังเกตได้ tuple X

P (H|X) คือความน่าจะเป็นภายหลังของ H ที่มีเงื่อนไขบน X ตัวอย่างเช่น สมมติว่าโลกของข้อมูล tuples นั้นจำกัดเฉพาะลูกค้าที่อธิบายโดยอายุและรายได้ของแอตทริบิวต์ตามลำดับ และ X คือลูกค้าอายุ 30 ปีที่มีรายได้ Rs 20,000 รายได้ สมมติว่า H เป็นสมมติฐานที่ลูกค้าจะซื้อคอมพิวเตอร์ จากนั้น P (H|X) จะสะท้อนความน่าจะเป็นที่ลูกค้า X จะซื้อคอมพิวเตอร์เมื่อทราบอายุและรายได้ของลูกค้า

P (H) คือความน่าจะเป็นก่อนหน้าของ H ตัวอย่างเช่น นี่คือความน่าจะเป็นที่ลูกค้ารายใดรายหนึ่งจะซื้อคอมพิวเตอร์ โดยไม่คำนึงถึงอายุ รายได้ หรือข้อมูลอื่นใด ความน่าจะเป็นหลัง P (H|X) ขึ้นอยู่กับข้อมูลที่มากกว่าความน่าจะเป็นก่อนหน้า P (H) ซึ่งไม่ขึ้นกับ X

ในทำนองเดียวกัน P (X|H) คือความน่าจะเป็นหลังของ X ที่ปรับเงื่อนไขบน H ซึ่งก็คือความน่าจะเป็นที่ลูกค้า X อายุ 30 ปีและมีรายได้ Rs 20,000.

P (H), P (X|H) และ P (X) สามารถประมาณได้จากข้อมูลที่กำหนด ทฤษฎีบทเบย์ให้วิธีการคำนวณความน่าจะเป็นหลัง P (H|X) จาก P (H), P (X|H) และ P(X) มอบให้โดย

$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$