Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การแปลงข้อมูลคืออะไร


ในการแปลงข้อมูล ข้อมูลจะถูกแปลงหรือรวมเป็นรูปแบบที่เหมาะสมสำหรับการขุด การแปลงข้อมูลอาจเกี่ยวข้องกับสิ่งต่อไปนี้ -

ปรับให้เรียบ − มันสามารถทำงานเพื่อขจัดเสียงรบกวนจากข้อมูล วิธีการดังกล่าวประกอบด้วย Binning การถดถอยและการจัดกลุ่ม

การรวม − ในการสรุปรวม โดยที่การดำเนินการสรุปหรือการรวมกลุ่มถูกนำไปใช้กับข้อมูล ตัวอย่างเช่น ข้อมูลยอดขายรายวันอาจถูกรวมเพื่อคำนวณยอดรวมรายเดือนและรายปี โดยทั่วไป ระยะนี้ใช้ในการสร้าง data cube สำหรับการวิเคราะห์ข้อมูลในหลายระดับ

ลักษณะทั่วไป − ในลักษณะทั่วไป โดยที่ข้อมูลระดับต่ำหรือ "ดั้งเดิม" (ดิบ) ถูกกู้คืนโดยแนวคิดระดับใหญ่ผ่านการใช้ลำดับชั้นของแนวคิด ตัวอย่างเช่น คุณลักษณะตามหมวดหมู่ เช่น ถนน สามารถสรุปให้เป็นแนวคิดระดับใหญ่ได้ เช่น เมืองหรือประเทศ ในทำนองเดียวกัน ค่าของแอตทริบิวต์ที่เป็นตัวเลข เช่น อายุ สามารถจับคู่กับแนวคิดระดับใหญ่ได้ เช่น เยาวชน วัยกลางคน และอาวุโส

การทำให้เป็นมาตรฐาน − ในการทำให้เป็นมาตรฐาน โดยที่ข้อมูลแอตทริบิวต์ถูกปรับขนาดให้อยู่ในช่วงที่ระบุขนาดเล็ก เช่น −1.0 ถึง 1.0 หรือ 0.0 ถึง 1.0

การสร้างแอตทริบิวต์ − ในการสร้างแอตทริบิวต์ซึ่งมีการพัฒนาและเพิ่มคุณลักษณะใหม่จากชุดคุณลักษณะที่กำหนดเพื่ออำนวยความสะดวกในกระบวนการขุด

การปรับให้เรียบเป็นรูปแบบหนึ่งของการล้างข้อมูลและได้รับการแก้ไขแล้วในกระบวนการล้างข้อมูลที่ผู้ใช้ระบุการแปลงเพื่อแก้ไขข้อมูลที่ไม่สอดคล้องกัน การรวมและการวางนัยทั่วไปให้เป็นรูปแบบของการลดข้อมูล แอตทริบิวต์ถูกทำให้เป็นมาตรฐานโดยการปรับค่าเพื่อให้ลดลงภายในลำดับเล็กน้อยที่ระบุ ซึ่งรวมถึง 0.0 ถึง 1.0

การทำให้เป็นมาตรฐานมีประโยชน์อย่างยิ่งสำหรับอัลกอริธึมการจำแนกประเภทที่มีโครงข่ายประสาทเทียม หรือการวัดระยะทาง เช่น การจำแนกประเภทเพื่อนบ้านที่ใกล้ที่สุดและการจัดกลุ่ม หากใช้อัลกอริธึม backpropagation ของโครงข่ายประสาทเทียมสำหรับการขุดจำแนกประเภท การปรับค่าอินพุตให้เป็นมาตรฐานสำหรับแต่ละแอตทริบิวต์ที่วัดใน tuples การฝึกจะช่วยเร่งขั้นตอนการเรียนรู้

สำหรับวิธีการที่อิงตามระยะทาง การทำให้เป็นมาตรฐานจะช่วยป้องกันแอตทริบิวต์ที่มีช่วงเริ่มต้นขนาดใหญ่ (เช่น รายได้) จากแอตทริบิวต์ที่มีน้ำหนักเกินที่มีช่วงเริ่มต้นที่เล็กกว่า (เช่น คุณลักษณะไบนารี) มีหลายวิธีในการทำให้ข้อมูลเป็นมาตรฐานซึ่งมีดังต่อไปนี้ -

การทำให้เป็นมาตรฐานต่ำสุด-สูงสุด − มันใช้การแปลงเชิงเส้นกับข้อมูลดั้งเดิม สมมติว่า minA และแม็กซ์A คือค่าต่ำสุดและสูงสุดของแอตทริบิวต์ A. การปรับมาตรฐานค่าต่ำสุดสูงสุดจะจับคู่ค่า v ของ A ถึง v ในช่วง [new_minA , new_maxA ] โดยการคำนวณ

$$v'=\frac{v-min_{A}}{max_{A}-min_{A}}(new\_max_{A}- new\_min_{A})+new\_min_{A}$$

การทำให้เป็นมาตรฐาน Z-score − ในการทำให้เป็นมาตรฐาน z-score (หรือการทำให้เป็นมาตรฐานเป็นศูนย์) ค่าสำหรับแอตทริบิวต์ A จะถูกทำให้เป็นมาตรฐานตามค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของ A ค่า v ของ A จะถูกทำให้เป็นมาตรฐานเป็น v ' โดยการคำนวณ

$$v'=\frac{v-A^{'}}{\sigma_{A}}$$

โดยที่ A และ σA คือค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานตามลำดับของแอตทริบิวต์ A วิธีการทำให้เป็นมาตรฐานนี้มีประโยชน์เมื่อไม่ทราบค่าต่ำสุดและสูงสุดของแอตทริบิวต์ A จริง หรือเมื่อมีค่าผิดปกติที่ควบคุมค่าต่ำสุด-สูงสุด

มาตราส่วนทศนิยม − Normalization โดย decimal scaling ให้เป็นมาตรฐานโดยการเปลี่ยนจุดทศนิยมของค่าของแอตทริบิวต์ A จำนวนจุดทศนิยมที่ย้ายตามค่าสัมบูรณ์สูงสุดของ A ค่า v ของ A จะถูกทำให้เป็นมาตรฐานเป็น v โดยการคำนวณ

$$v'=\frac{v}{10^{j}}$$

โดยที่ j เป็นจำนวนเต็มที่น้อยที่สุดที่ Max (|v |)<1.