Scikit-learn หรือที่เรียกกันทั่วไปว่า sklearn เป็นไลบรารี่ใน Python ที่ใช้สำหรับวัตถุประสงค์ในการใช้อัลกอริธึมการเรียนรู้ของเครื่อง
เป็นห้องสมุดโอเพ่นซอร์สจึงสามารถใช้งานได้ฟรี มีประสิทธิภาพและแข็งแกร่ง เนื่องจากมีเครื่องมือมากมายสำหรับสร้างแบบจำลองทางสถิติ ซึ่งรวมถึงการจัดประเภท การถดถอย การจัดกลุ่ม การลดขนาด และอื่นๆ อีกมากมายด้วยความช่วยเหลือจากอินเทอร์เฟซที่ทรงพลังและเสถียรใน Python ไลบรารีนี้สร้างขึ้นบนไลบรารี Numpy, SciPy และ Matplotlib
สามารถติดตั้งได้โดยใช้คำสั่ง 'pip' ดังที่แสดงด้านล่าง -
pip install scikit-learn
ไลบรารีนี้เน้นที่การสร้างแบบจำลองข้อมูล
มีหลายแบบจำลองที่ใช้ใน scikit-learn และบางรูปแบบได้สรุปไว้ด้านล่าง
อัลกอริทึมการเรียนรู้ภายใต้การดูแล
อัลกอริธึมการเรียนรู้ภายใต้การดูแลได้รับการสอนให้ประพฤติตนในทางใดทางหนึ่ง ผลลัพธ์ที่พึงประสงค์บางอย่างจะถูกแมปกับข้อมูลป้อนเข้าที่ให้ไว้ ซึ่งจะทำให้มนุษย์มีการควบคุมดูแล ซึ่งอาจเกิดจากการติดป้ายกำกับคุณลักษณะ (ตัวแปรที่มีอยู่ในชุดข้อมูลอินพุต) โดยการให้ข้อเสนอแนะกับข้อมูล (ไม่ว่าผลลัพธ์จะทำนายอย่างถูกต้องโดยอัลกอริทึมหรือไม่ และหากไม่ใช่สิ่งที่ต้องคาดการณ์ที่ถูกต้อง) เป็นต้นพี>
เมื่ออัลกอริธึมได้รับการฝึกอบรมอย่างสมบูรณ์เกี่ยวกับข้อมูลอินพุตดังกล่าว ก็สามารถสรุปให้ทำงานสำหรับข้อมูลประเภทเดียวกันได้ จะได้รับความสามารถในการทำนายผลลัพธ์สำหรับอินพุตที่ไม่เคยเห็นมาก่อนหากแบบจำลองที่ได้รับการฝึกอบรมมีตัวชี้วัดประสิทธิภาพที่ดี เป็นอัลกอริธึมการเรียนรู้ที่มีราคาแพง เนื่องจากมนุษย์จำเป็นต้องติดฉลากชุดข้อมูลอินพุตทางกายภาพ ซึ่งจะทำให้มีค่าใช้จ่ายเพิ่มเติม
Sklearn ช่วยปรับใช้เวกเตอร์เครื่องสนับสนุนการถดถอยเชิงเส้น ต้นไม้การตัดสินใจ และอื่นๆ
การเรียนรู้แบบไม่มีผู้ดูแล
สิ่งนี้ตรงกันข้ามกับการเรียนรู้ภายใต้การดูแล กล่าวคือ ชุดข้อมูลอินพุตไม่ได้ติดป้ายกำกับ ดังนั้นจึงแสดงว่าไม่มีการควบคุมของมนุษย์ อัลกอริทึมจะเรียนรู้จากข้อมูลที่ไม่มีป้ายกำกับ ดึงรูปแบบ ดำเนินการคาดการณ์ ให้ข้อมูลเชิงลึกเกี่ยวกับข้อมูล และดำเนินการอื่นๆ ด้วยตัวเอง ข้อมูลในโลกแห่งความเป็นจริงส่วนใหญ่ไม่มีโครงสร้างและไม่มีป้ายกำกับ
Sklearn ช่วยในการจัดกลุ่ม การวิเคราะห์ปัจจัย การวิเคราะห์องค์ประกอบหลัก โครงข่ายประสาท และอื่นๆ
การจัดกลุ่ม
ข้อมูลที่คล้ายกันจะถูกจัดกลุ่มเป็นโครงสร้าง และสัญญาณรบกวนใดๆ (ข้อมูลนอกระบบหรือข้อมูลที่ผิดปกติ) จะอยู่นอกคลัสเตอร์นี้ ซึ่งสามารถกำจัดหรือละเลยได้ในภายหลัง
การตรวจสอบความถูกต้องข้าม
เป็นกระบวนการที่ชุดข้อมูลดั้งเดิมแบ่งออกเป็นสองส่วนคือ 'ชุดข้อมูลการฝึกอบรม' และ 'ชุดข้อมูลการทดสอบ' ความต้องการ 'ชุดข้อมูลการตรวจสอบ' จะหมดไปเมื่อใช้การตรวจสอบข้าม มีวิธี 'การตรวจสอบข้าม' หลายรูปแบบ วิธีตรวจสอบไขว้ที่ใช้บ่อยที่สุดคือ 'k' คูณไขว้
การลดขนาด
การลดขนาดบอกเกี่ยวกับเทคนิคที่ใช้เพื่อลดจำนวนคุณลักษณะในชุดข้อมูล หากจำนวนของคุณสมบัติสูงกว่าในชุดข้อมูล มักจะเป็นเรื่องยากที่จะสร้างแบบจำลองอัลกอริทึม หากชุดข้อมูลอินพุตมีตัวแปรมากเกินไป ประสิทธิภาพของอัลกอริธึมการเรียนรู้ของเครื่องอาจลดลงอย่างมาก
การมีมิติข้อมูลจำนวนมากในพื้นที่คุณลักษณะต้องใช้หน่วยความจำจำนวนมาก ซึ่งหมายความว่าข้อมูลทั้งหมดไม่สามารถแสดงอย่างเหมาะสมบนช่องว่าง (แถวของข้อมูล) ซึ่งหมายความว่าประสิทธิภาพของอัลกอริธึมการเรียนรู้ของเครื่องจะได้รับผลกระทบ และสิ่งนี้เรียกอีกอย่างว่า "คำสาปแห่งมิติ" ดังนั้นจึงแนะนำให้ลดจำนวนคุณสมบัติอินพุตในชุดข้อมูล จึงเป็นที่มาของชื่อ 'การลดมิติ'