Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

แนวคิดหลักของการจัดประเภทเบย์คืออะไร?


การจัดประเภทเป็นวิธีการทำเหมืองข้อมูลที่ใช้ในการคาดการณ์สมาชิกทีมสำหรับอินสแตนซ์ข้อมูล เป็นขั้นตอนสองขั้นตอน ในขั้นตอนแรก โมเดลจะถูกสร้างขึ้นเพื่อกำหนดชุดข้อมูลหรือแนวทางที่กำหนดไว้ล่วงหน้า โมเดลนี้พัฒนาขึ้นโดยพิจารณาจาก tuples ฐานข้อมูลที่กำหนดโดยแอตทริบิวต์

เป็นงานในการวิเคราะห์คุณสมบัติของอ็อบเจกต์ที่เพิ่งนำเสนอและสร้างมันให้เป็นหนึ่งในคอลเล็กชันคลาสที่กำหนดไว้ล่วงหน้า สำหรับกฎการจำแนกประเภทการเรียนรู้ ระบบจะต้องค้นหากฎที่ทำนายชั้นเรียนจากแอตทริบิวต์การทำนาย ดังนั้นในขั้นแรกจะต้องแสดงเงื่อนไขสำหรับแต่ละชั้นเรียน ระบบต้องได้รับ case หรือ tuple ที่มีค่าแอตทริบิวต์ที่รู้จักเฉพาะเพื่อให้สามารถทำนายได้ว่ากรณีนี้ใช้กับคลาสใด

เมื่อกำหนดคลาสแล้ว ระบบจะต้องอนุมานกฎที่ควบคุมการจัดประเภท ดังนั้นระบบจะต้องสามารถค้นพบการเป็นตัวแทนของแต่ละคลาสได้ คำอธิบายควรกำหนดเฉพาะคุณลักษณะการทำนายของชุดการฝึก เพื่อให้เฉพาะตัวอย่างในเชิงบวกเท่านั้นที่ต้องเป็นไปตามลักษณะเฉพาะ ไม่ใช่ตัวอย่างเชิงลบ กฎจะถูกต้องหากคำจำกัดความครอบคลุมตัวอย่างเชิงบวกทั้งหมด และไม่มีตัวอย่างเชิงลบของชั้นเรียน

การจำแนกแบบเบย์ − ตัวแยกประเภท Bayesian เป็นตัวแยกประเภททางสถิติ พวกเขาสามารถทำนายความน่าจะเป็นของการเป็นสมาชิกชั้นเรียน รวมถึงความน่าจะเป็นที่กลุ่มตัวอย่างที่กำหนดเป็นของชั้นเรียนเฉพาะ ตัวแยกประเภทแบบเบย์ยังแสดงให้เห็นประสิทธิภาพและความเร็วสูงเมื่อใช้กับฐานข้อมูลที่มีระดับสูง

ตัวแยกประเภทแบบเบส์ไร้เดียงสาพิจารณาว่าผลกระทบของค่าแอตทริบิวต์ในคลาสที่กำหนดนั้นเป็นอิสระจากค่าของแอตทริบิวต์ที่แตกต่างกัน สมมติฐานนี้เรียกว่าความเป็นอิสระแบบมีเงื่อนไขของคลาส มันถูกสร้างขึ้นเพื่อกำหนดการประเมินที่มีอยู่และได้รับการปฏิบัติอย่างไร้เดียงสา

ทฤษฎีบทเบย์ทฤษฎีบทเบย์ - ให้ X เป็นทูเพิลข้อมูล ในวิธีการแบบเบย์เซียน X จะถือเป็น "หลักฐาน" ให้ H เป็นสมมติฐานบางประการ รวมทั้งข้อมูล tuple X เป็นของคลาส C โดยเฉพาะ ความน่าจะเป็น P (H|X) ถูกกำหนดให้กำหนดข้อมูล ความน่าจะเป็น P (H|X) นี้คือความน่าจะเป็นที่อิทธิพลของสมมติฐาน H ได้ให้ "หลักฐาน" หรือข้อมูลทูเพิลที่สังเกตเห็น X

P (H|X) คือความน่าจะเป็นภายหลังของ H ที่มีเงื่อนไขบน X ตัวอย่างเช่น พิจารณาธรรมชาติของข้อมูล tuples ที่จำกัดเฉพาะผู้ใช้ที่กำหนดโดยอายุและรายได้ของแอตทริบิวต์ โดยทั่วไป และ X คือผู้ใช้อายุ 30 ปีที่มีมูลค่า Rs 20,000 รายได้ สมมติว่า H เป็นสมมติฐานที่ผู้ใช้จะซื้อคอมพิวเตอร์ ดังนั้น P (H|X) จึงย้อนกลับความน่าจะเป็นที่ผู้ใช้ X จะซื้อคอมพิวเตอร์โดยพิจารณาจากอายุและรายได้ของผู้ใช้

P (H) คือความน่าจะเป็นก่อนหน้าของ H ตัวอย่างเช่น นี่คือความน่าจะเป็นที่ผู้ใช้รายใดรายหนึ่งจะซื้อคอมพิวเตอร์ โดยไม่คำนึงถึงอายุ รายได้ หรือข้อมูลอื่นๆ ความน่าจะเป็นหลัง P (H|X) อยู่บนข้อมูลมากกว่าความน่าจะเป็นก่อนหน้า P (H) ซึ่งไม่มี X

ในทำนองเดียวกัน P (X|H) คือความน่าจะเป็นหลังของ X ที่ปรับเงื่อนไขบน H ซึ่งก็คือความน่าจะเป็นที่ผู้ใช้ X อายุ 30 ปีและได้รับ Rs 20,000.

P (H), P (X|H) และ P (X) สามารถวัดได้จากข้อมูลที่กำหนด ทฤษฎีบทเบย์สนับสนุนวิธีคำนวณความน่าจะเป็นหลัง P (H|X) จาก P (H), P (X|H) และ P(X) มอบให้โดย

$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$