Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> Python

อธิบายพื้นฐานของไลบรารี scikit-learn ใน Python?


Scikit-learn หรือที่เรียกกันทั่วไปว่า sklearn เป็นไลบรารี่ใน Python ที่ใช้สำหรับวัตถุประสงค์ในการใช้อัลกอริธึมการเรียนรู้ของเครื่อง

เป็นห้องสมุดโอเพ่นซอร์สจึงสามารถใช้งานได้ฟรี มีประสิทธิภาพและแข็งแกร่ง เนื่องจากมีเครื่องมือมากมายสำหรับสร้างแบบจำลองทางสถิติ ซึ่งรวมถึงการจัดประเภท การถดถอย การจัดกลุ่ม การลดขนาด และอื่นๆ อีกมากมายด้วยความช่วยเหลือจากอินเทอร์เฟซที่ทรงพลังและเสถียรใน Python ไลบรารีนี้สร้างขึ้นบนไลบรารี Numpy, SciPy และ Matplotlib

สามารถติดตั้งได้โดยใช้คำสั่ง 'pip' ดังที่แสดงด้านล่าง -

pip install scikit-learn

ไลบรารีนี้เน้นที่การสร้างแบบจำลองข้อมูล

มีหลายแบบจำลองที่ใช้ใน scikit-learn และบางรูปแบบได้สรุปไว้ด้านล่าง

อัลกอริทึมการเรียนรู้ภายใต้การดูแล

อัลกอริธึมการเรียนรู้ภายใต้การดูแลได้รับการสอนให้ประพฤติตนในทางใดทางหนึ่ง ผลลัพธ์ที่พึงประสงค์บางอย่างจะถูกแมปกับข้อมูลป้อนเข้าที่ให้ไว้ ซึ่งจะทำให้มนุษย์มีการควบคุมดูแล ซึ่งอาจเกิดจากการติดป้ายกำกับคุณลักษณะ (ตัวแปรที่มีอยู่ในชุดข้อมูลอินพุต) โดยการให้ข้อเสนอแนะกับข้อมูล (ไม่ว่าผลลัพธ์จะทำนายอย่างถูกต้องโดยอัลกอริทึมหรือไม่ และหากไม่ใช่สิ่งที่ต้องคาดการณ์ที่ถูกต้อง) เป็นต้น

เมื่ออัลกอริธึมได้รับการฝึกอบรมอย่างสมบูรณ์เกี่ยวกับข้อมูลอินพุตดังกล่าว ก็สามารถสรุปให้ทำงานสำหรับข้อมูลประเภทเดียวกันได้ จะได้รับความสามารถในการทำนายผลลัพธ์สำหรับอินพุตที่ไม่เคยเห็นมาก่อนหากแบบจำลองที่ได้รับการฝึกอบรมมีตัวชี้วัดประสิทธิภาพที่ดี เป็นอัลกอริธึมการเรียนรู้ที่มีราคาแพง เนื่องจากมนุษย์จำเป็นต้องติดฉลากชุดข้อมูลอินพุตทางกายภาพ ซึ่งจะทำให้มีค่าใช้จ่ายเพิ่มเติม

Sklearn ช่วยปรับใช้เวกเตอร์เครื่องสนับสนุนการถดถอยเชิงเส้น ต้นไม้การตัดสินใจ และอื่นๆ

การเรียนรู้แบบไม่มีผู้ดูแล

สิ่งนี้ตรงกันข้ามกับการเรียนรู้ภายใต้การดูแล กล่าวคือ ชุดข้อมูลอินพุตไม่ได้ติดป้ายกำกับ ดังนั้นจึงแสดงว่าไม่มีการควบคุมของมนุษย์ อัลกอริทึมจะเรียนรู้จากข้อมูลที่ไม่มีป้ายกำกับ ดึงรูปแบบ ดำเนินการคาดการณ์ ให้ข้อมูลเชิงลึกเกี่ยวกับข้อมูล และดำเนินการอื่นๆ ด้วยตัวเอง ข้อมูลในโลกแห่งความเป็นจริงส่วนใหญ่ไม่มีโครงสร้างและไม่มีป้ายกำกับ

Sklearn ช่วยในการจัดกลุ่ม การวิเคราะห์ปัจจัย การวิเคราะห์องค์ประกอบหลัก โครงข่ายประสาท และอื่นๆ

การจัดกลุ่ม

ข้อมูลที่คล้ายกันจะถูกจัดกลุ่มเป็นโครงสร้าง และสัญญาณรบกวนใดๆ (ข้อมูลนอกระบบหรือข้อมูลที่ผิดปกติ) จะอยู่นอกคลัสเตอร์นี้ ซึ่งสามารถกำจัดหรือละเลยได้ในภายหลัง

การตรวจสอบความถูกต้องข้าม

เป็นกระบวนการที่ชุดข้อมูลดั้งเดิมแบ่งออกเป็นสองส่วนคือ 'ชุดข้อมูลการฝึกอบรม' และ 'ชุดข้อมูลการทดสอบ' ความต้องการ 'ชุดข้อมูลการตรวจสอบ' จะหมดไปเมื่อใช้การตรวจสอบข้าม มีวิธี 'การตรวจสอบข้าม' หลายรูปแบบ วิธีตรวจสอบไขว้ที่ใช้บ่อยที่สุดคือ 'k' คูณไขว้

การลดขนาด

การลดขนาดบอกเกี่ยวกับเทคนิคที่ใช้เพื่อลดจำนวนคุณลักษณะในชุดข้อมูล หากจำนวนของคุณสมบัติสูงกว่าในชุดข้อมูล มักจะเป็นเรื่องยากที่จะสร้างแบบจำลองอัลกอริทึม หากชุดข้อมูลอินพุตมีตัวแปรมากเกินไป ประสิทธิภาพของอัลกอริธึมการเรียนรู้ของเครื่องอาจลดลงอย่างมาก

การมีมิติข้อมูลจำนวนมากในพื้นที่คุณลักษณะต้องใช้หน่วยความจำจำนวนมาก ซึ่งหมายความว่าข้อมูลทั้งหมดไม่สามารถแสดงอย่างเหมาะสมบนช่องว่าง (แถวของข้อมูล) ซึ่งหมายความว่าประสิทธิภาพของอัลกอริธึมการเรียนรู้ของเครื่องจะได้รับผลกระทบ และสิ่งนี้เรียกอีกอย่างว่า "คำสาปแห่งมิติ" ดังนั้นจึงแนะนำให้ลดจำนวนคุณสมบัติอินพุตในชุดข้อมูล จึงเป็นที่มาของชื่อ 'การลดมิติ'