เป็นขั้นตอนของการประมวลผลข้อมูลล่วงหน้าซึ่งนำไปใช้กับตัวแปรอิสระหรือคุณสมบัติของข้อมูล โดยทั่วไปจะช่วยทำให้ข้อมูลเป็นปกติในช่วงที่กำหนด
เหตุใดจึงต้องปรับขนาด
โดยส่วนใหญ่ ชุดข้อมูลของคุณจะมีคุณลักษณะที่แตกต่างกันอย่างมากในขนาด หน่วย และช่วง แต่เนื่องจากอัลกอริธึมแมชชีนเลิร์นนิงส่วนใหญ่ใช้ระยะห่างแบบยุคลิเดียนระหว่างจุดข้อมูลสองจุดในการคำนวณ นี่จึงเป็นปัญหา
หากปล่อยไว้ตามลำพัง อัลกอริธึมเหล่านี้จะพิจารณาเฉพาะขนาดของคุณลักษณะที่ละเลยหน่วยเท่านั้น ผลลัพธ์ที่ได้จะแตกต่างกันอย่างมากระหว่างหน่วยที่ต่างกัน 5 กก. และ 5,000 กรัม
คุณลักษณะที่มีขนาดสูงจะมีน้ำหนักในการคำนวณระยะทางมากกว่าคุณลักษณะที่มีขนาดต่ำมาก
ในการระงับผลกระทบนี้ เราต้องทำให้คุณลักษณะทั้งหมดมีขนาดเท่ากัน สามารถทำได้โดยการปรับขนาด
วิธีการปรับขนาดคุณลักษณะ
- การกำหนดมาตรฐาน − มาตรฐานแทนที่ค่าด้วยคะแนน Z
- $$x^{\prime}=\frac{x\:-\:\bar{x}}{\sigma}$$$ ซึ่งกระจายคุณสมบัติด้วยค่าเฉลี่ย μ =0 และค่าเบี่ยงเบนมาตรฐาน σ =1 sklearn.preprocessing.scale ช่วยให้เรานำมาตรฐานไปใช้ใน python
- หมายถึงการทำให้เป็นมาตรฐาน −
- $$x^{\prime}=\frac{x\:-\:mean(x)}{\max(x)\:-\:\min(x)}$$
การแจกแจงนี้จะมีค่าระหว่าง -1 ถึง 1 ด้วย μ=0 มาตรฐาน และ Mean Normalization สามารถใช้กับอัลกอริธึมที่ถือว่าข้อมูลเป็นศูนย์ เช่น Principal Component Analysis(PCA) .
- การปรับขนาดต่ำสุด-สูงสุด
- $$x^{\prime}=\frac{x\:-\:\min(x)}{\max(x)\:-\:\min(x)}$$
มาตราส่วนนี้ทำให้ค่าระหว่าง 0 ถึง 1
- เวกเตอร์หน่วย −
- $$x^{\prime}=\frac{x}{\lVert\:x\:\rVert}$$
การปรับขนาดเสร็จสิ้นโดยพิจารณาจากเวกเตอร์ของจุดสนใจทั้งหมดว่ามีความยาวหน่วยการปรับขนาดต่ำสุด-สูงสุด และ เวกเตอร์หน่วย เทคนิคสร้างค่าของช่วง [0,1] เมื่อต้องรับมือกับคุณสมบัติที่มีขอบเขตตายตัว สิ่งนี้ค่อนข้างมีประโยชน์ ตัวอย่างเช่น เมื่อต้องจัดการกับข้อมูลภาพ สีสามารถอยู่ในช่วงตั้งแต่ 0 ถึง 255
ควรปรับขนาดเมื่อใด
หลักการง่ายๆ ที่ควรทำตามนี้คืออัลกอริธึมที่คำนวณระยะทางหรือถือว่าเป็นเรื่องปกติ ปรับขนาดคุณลักษณะของคุณ
ตัวอย่างของอัลกอริธึมที่การปรับขนาดคุณลักษณะมีความสำคัญ -
-
เพื่อนบ้านที่ใกล้ที่สุด k ที่มีการวัดระยะทางแบบยุคลิดมีความไวต่อขนาดและด้วยเหตุนี้จึงควรปรับขนาดเพื่อให้คุณลักษณะทั้งหมดชั่งน้ำหนักเท่ากัน
-
การปรับขนาดเป็นสิ่งสำคัญ ในขณะที่ทำการวิเคราะห์องค์ประกอบหลัก (PCA) PCA พยายามรับคุณลักษณะที่มีความแปรปรวนสูงสุด และความแปรปรวนสูงสำหรับคุณลักษณะที่มีลำดับความสำคัญสูง สิ่งนี้ทำให้ PCA บิดเบือนไปในด้านคุณลักษณะขนาดใหญ่
-
เราสามารถเร่งความเร็วการไล่ระดับสีโดยการปรับขนาด เนื่องจาก θ จะลงมาอย่างรวดเร็วในช่วงขนาดเล็กและช้าๆ ในช่วงขนาดใหญ่ และจะแกว่งลงมาอย่างไม่มีประสิทธิภาพจนถึงค่าที่เหมาะสมที่สุดเมื่อตัวแปรไม่เท่ากัน
-
โมเดลแบบต้นไม้ไม่ใช่โมเดลที่อิงตามระยะทางและสามารถจัดการกับช่วงของคุณลักษณะต่างๆ ได้ ดังนั้นจึงไม่จำเป็นต้องใช้มาตราส่วนในการสร้างแบบจำลองต้นไม้
-
อัลกอริธึมเช่น Linear Discriminant Analysis (LDA) Naive Bayes ได้รับการออกแบบมาเพื่อรองรับสิ่งนี้และให้น้ำหนักแก่คุณสมบัติต่างๆ ตามลำดับ การปรับขนาดคุณลักษณะในอัลกอริทึมเหล่านี้อาจไม่ได้ผลมากนัก