การแปลงตัวแปรกำหนดการแปลงที่ใช้กับค่าบางค่าของตัวแปร กล่าวอีกนัยหนึ่ง สำหรับทุกอ็อบเจ็กต์ การปฏิวัติจะใช้กับค่าของตัวแปรสำหรับอ็อบเจกต์นั้น ตัวอย่างเช่น หากจำเป็นเพียงความสำคัญของตัวแปร ค่าของตัวแปรก็สามารถเปลี่ยนแปลงได้โดยการสร้างค่าสัมบูรณ์
การแปลงตัวแปรมีสองประเภท:การแปลงเชิงฟังก์ชันอย่างง่ายและการทำให้เป็นมาตรฐาน
ฟังก์ชั่นง่ายๆ
ฟังก์ชันทางคณิตศาสตร์อย่างง่ายจะใช้กับแต่ละค่าอย่างอิสระ หาก r เป็นตัวแปร ตัวอย่างของการแปลงดังกล่าว ได้แก่ x k ,logx, e x ,$\sqrt{x}$,$\frac{1}{x}$,sinx,or |x|. ในสถิติ การแปลงตัวแปร โดยเฉพาะ sqrt บันทึก และ 1/x ถูกนำไปใช้เพื่อแปลงเร็กคอร์ดที่ไม่มีการกระจายแบบเกาส์เซียน (ปกติ) เป็นข้อมูลที่ทำ แม้ว่าสิ่งนี้จะมีความสำคัญ แต่เหตุผลบางประการอาจมีความสำคัญเหนือกว่าในการทำเหมืองข้อมูล
พิจารณาตัวแปรที่น่าสนใจคือจำนวนไบต์ข้อมูลหลายไบต์ในเซสชันหนึ่ง และหลายไบต์มีตั้งแต่ 1 ถึง 1 พันล้าน นี่เป็นช่วงกว้างและอาจเป็นประโยชน์ในการบีบอัดโดยใช้การแปลง log10 ในกรณีนี้ เซสชันที่โอน 10 8 และ 10 9 ไบต์จะคล้ายกันมากกว่าเซสชันที่ถ่ายโอน 10 และ 1,000 ไบต์ (9 - 8 =1 เทียบกับ 3 - 1 =2)
ควรใช้การแปลงตัวแปรด้วยความระมัดระวัง เนื่องจากจะเปลี่ยนลักษณะของข้อมูล อาจมีปัญหาได้หากไม่ปฏิบัติตามคุณลักษณะของการเปลี่ยนแปลงอย่างสมบูรณ์ ตัวอย่างเช่น การแปลง 1/x ลดความสำคัญของค่าที่ 1 หรือสูงกว่า แต่เพิ่มความสำคัญของค่าระหว่าง 0 ถึง 1
การทำให้เป็นมาตรฐานหรือการทำให้เป็นมาตรฐาน
การแปลงตัวแปรทั่วไปอีกประเภทหนึ่งคือการทำให้เป็นมาตรฐานหรือการทำให้เป็นมาตรฐานของตัวแปร วัตถุประสงค์ของการทำให้เป็นมาตรฐานหรือการทำให้เป็นมาตรฐานคือการสร้างกลุ่มค่าทั้งหมดที่มีคุณสมบัติเฉพาะ ตัวอย่างทั่วไปคือ "การทำให้ตัวแปรเป็นมาตรฐาน" ในสถิติ ถ้า x ’ คือค่าเฉลี่ย (ค่าเฉลี่ย) ของค่าแอตทริบิวต์และ sx , คือค่าเบี่ยงเบนมาตรฐาน จากนั้นการแปลง x ’ =(x –x ’ )/ sx ) สร้างตัวแปรใหม่ที่มีค่าเฉลี่ย 0 และค่าเบี่ยงเบนมาตรฐานเท่ากับ 1
หากต้องรวมตัวแปรต่างๆ เข้าด้วยกันในทางใดทางหนึ่ง การเปลี่ยนแปลงดังกล่าวมักจะจำเป็นเพื่อหลีกเลี่ยงการมีตัวแปรที่มีค่ามากครอบงำผลลัพธ์ของการคำนวณ
ค่ากลางและค่าเบี่ยงเบนมาตรฐานได้รับผลกระทบอย่างมากจากค่าผิดปกติ ดังนั้นการเปลี่ยนแปลงข้างต้นจึงมักถูกแก้ไข ขั้นแรก ค่ากลางจะถูกแทนที่ด้วยค่ามัธยฐาน กล่าวคือ ค่ากลาง ประการที่สอง ค่าเบี่ยงเบนมาตรฐานจะถูกแทนที่ด้วยค่าเบี่ยงเบนมาตรฐานสัมบูรณ์ โดยเฉพาะอย่างยิ่ง ถ้า r เป็นตัวแปร ดังนั้นค่าเบี่ยงเบนมาตรฐานสัมบูรณ์ของ r จะถูกกำหนดโดย $\mathrm{\sigma_{A}=\displaystyle\sum\limits_{i=1}^m |X_{i}-\mu| }$ โดยที่ xi คือ i th ค่าของตัวแปร m คือจำนวนวัตถุ และ μ เป็นค่ากลางหรือค่ามัธยฐาน