Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

Single-Attribute Evaluator ในการขุดข้อมูลคืออะไร?


ในตัวประเมินคุณสมบัติเดียว สามารถใช้กับวิธีการค้นหาอันดับเพื่อสร้างรายการจัดอันดับที่ผู้จัดอันดับจะละทิ้งหมายเลขที่กำหนด นอกจากนี้ยังใช้ในวิธีการค้นหาอันดับด้วย

Relief Attribute Eval อิงตามอินสแตนซ์ − มันสุ่มตัวอย่างอินสแตนซ์และตรวจสอบอินสแตนซ์ที่อยู่ใกล้เคียงของคลาสที่เท่ากันและหลายคลาส มันทำงานบนข้อมูลคลาสที่ไม่ต่อเนื่องและต่อเนื่อง พารามิเตอร์กำหนดตัวอย่างหลายตัวอย่าง เพื่อนบ้านต่างๆ ที่จะตรวจสอบ ว่าจะให้น้ำหนักเพื่อนบ้านตามระยะทางหรือไม่ และฟังก์ชันเลขชี้กำลังที่ดำเนินการว่าน้ำหนักลดลงตามระยะทางมากขึ้นเพียงใด

การประเมินแอตทริบิวต์ InfoGain − มันคำนวณคุณสมบัติโดยการคำนวณข้อมูลที่ได้รับเกี่ยวกับชั้นเรียน มันแยกแอตทริบิวต์ที่เป็นตัวเลขก่อนโดยใช้วิธีการแยกย่อยตาม MDL วิธีการนี้ ร่วมกับสามวิธีต่อไปนี้สามารถพิจารณาว่าขาดหายไปเป็นค่าอิสระหรือกระจายการนับระหว่างค่าอื่นๆ ตามสัดส่วนของความถี่

การประเมินคุณสมบัติ Chi-Squared − มันคำนวณแอตทริบิวต์โดยการคำนวณสถิติไคสแควร์เกี่ยวกับคลาส

การประเมินคุณสมบัติอัตราส่วนกำไร − มันคำนวณแอตทริบิวต์โดยคำนวณอัตราส่วนเพิ่มที่เกี่ยวข้องกับคลาส

Eval Uncert-Attribute แบบสมมาตร − มันคำนวณแอตทริบิวต์โดยคำนวณความไม่แน่นอนเชิงสมมาตรที่เกี่ยวข้องกับคลาส

การประเมิน OneRAttribute − มันต้องการการวัดความแม่นยำที่สะอาดซึ่งนำมาใช้โดยตัวแยกประเภท OneR มันอาจต้องการข้อมูลการฝึกอบรมสำหรับการคำนวณ เช่นเดียวกับ OneR หรือสามารถใช้การตรวจสอบข้ามภายในได้ - การพับหลายครั้งเป็นพารามิเตอร์ สามารถเลือกวิธีการแยกส่วนอย่างง่ายของ OneR ได้ - ขนาดถังที่น้อยที่สุดคือพารามิเตอร์

การประเมินแอตทริบิวต์ SVM − มันคำนวณแอตทริบิวต์โดยใช้การลบคุณสมบัติแบบเรียกซ้ำด้วยเครื่องเวกเตอร์สนับสนุนเชิงเส้น แอตทริบิวต์จะถูกเลือกทีละรายการขึ้นอยู่กับขนาดของสัมประสิทธิ์ โดยจะเรียนรู้ใหม่หลังจากทุกคน

อันที่จริง สัดส่วนสามารถใช้ได้จนกว่าแอตทริบิวต์จำนวนหนึ่งจะยังคงอยู่ จากนั้นจึงเปลี่ยนไปใช้วิธีการจำนวนคงที่เพื่อขจัดแอตทริบิวต์จำนวนมากอย่างรวดเร็ว จากนั้นจึงพิจารณาแอตทริบิวต์ที่เหลืออย่างถี่ถ้วนมากขึ้น

พารามิเตอร์ต่างๆ จะถูกส่งต่อไปยังเครื่องสนับสนุนเวกเตอร์ - ความซับซ้อน เอปไซลอน ค่าความเผื่อ และวิธีการกรองที่ใช้

ส่วนประกอบหลักและการวิเคราะห์ความหมายแฝงจะเปลี่ยนชุดของแอตทริบิวต์ ในกรณีของ Principal Components คุณลักษณะใหม่จะถูกจัดลำดับตามค่าลักษณะเฉพาะ ทางเลือก ชุดย่อยจะถูกเลือกโดยการเลือกเวกเตอร์ลักษณะเฉพาะที่เพียงพอเพื่อพิจารณาสัดส่วนของความแปรปรวนที่กำหนด (95% โดยค่าเริ่มต้น) สุดท้าย ข้อมูลที่ลดขนาดลงสามารถแปลงกลับเป็นพื้นที่เดิมได้

การวิเคราะห์ความหมายแฝงใช้การสลายตัวของค่าเอกพจน์กับข้อมูลการฝึกอบรม การสลายตัวของค่าเอกพจน์เกี่ยวข้องกับการวิเคราะห์องค์ประกอบหลัก - ทั้งคู่สร้างทิศทางที่เป็นการรวมเชิงเส้นของค่าแอตทริบิวต์ดั้งเดิม แต่ต่างกันตรงที่คำนวณจากเมทริกซ์ที่มีค่าข้อมูลดั้งเดิมมากกว่าความสัมพันธ์ของแอตทริบิวต์หรือเมทริกซ์ความแปรปรวนร่วม