Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

แนวคิดพื้นฐานของการทำเหมืองข้อมูลคืออะไร?


การทำเหมืองข้อมูลเป็นกระบวนการในการค้นหาความสัมพันธ์ รูปแบบ และแนวโน้มใหม่ที่เป็นประโยชน์ โดยการถ่ายโอนข้อมูลจำนวนมากที่บันทึกไว้ในที่เก็บ โดยใช้เทคโนโลยีการจดจำรูปแบบ รวมทั้งเทคนิคทางสถิติและคณิตศาสตร์ เป็นการวิเคราะห์ชุดข้อมูลที่เป็นข้อเท็จจริงเพื่อค้นหาความสัมพันธ์ที่ไม่สงสัย และเพื่อสรุปบันทึกด้วยวิธีใหม่ที่มีทั้งเหตุผลและเป็นประโยชน์ต่อเจ้าของข้อมูล

การทำเหมืองข้อมูลมีแนวคิดต่างๆ ดังนี้ -

การจำแนกประเภท การจัดประเภทเป็นขั้นตอนในการค้นหาแบบจำลองที่เป็นตัวแทนและแยกแยะชั้นข้อมูลหรือแนวคิด เพื่อวัตถุประสงค์ในการใช้แบบจำลองในการทำนายคลาสของวัตถุที่มีป้ายชื่อชั้นไม่ระบุชื่อ โมเดลที่ได้รับจะขึ้นอยู่กับการวิเคราะห์กลุ่มของเร็กคอร์ดการฝึก (เช่น ออบเจ็กต์ข้อมูลที่มีป้ายกำกับคลาสที่คุ้นเคย)

การคาดการณ์ − การทำนายเหมือนกับการจำแนกประเภท ยกเว้นการคาดคะเน ผลลัพธ์จะถูกบิดเบือนในอนาคต

ตัวอย่างของฟังก์ชันการคาดการณ์ในธุรกิจและการวิจัย ได้แก่ −

  • สามารถทำนายมูลค่าหุ้นได้ในอีก 3 เดือนข้างหน้า

  • สามารถคาดการณ์เปอร์เซ็นต์การเสียชีวิตจากการจราจรที่เพิ่มขึ้นในปีหน้าได้หากเพิ่มขีดจำกัดความเร็ว

  • สามารถทำนายผู้ชนะของการแข่งขันเบสบอล World Series ของฤดูใบไม้ร่วงนี้โดยอิงจากการติดต่อทางสถิติของทีม

  • สามารถคาดการณ์ได้ว่าโมเลกุลที่แน่นอนในการค้นคว้ายาจะเริ่มต้นยาใหม่ที่คุ้มค่าสำหรับบริษัทยาหรือไม่

กฎสมาคมและระบบแนะนำ กฎการเชื่อมโยงหรือการวิเคราะห์ความสัมพันธ์ได้รับการออกแบบเพื่อค้นหารูปแบบการเชื่อมโยงทั่วไประหว่างรายการในฐานข้อมูลขนาดใหญ่ กฎสามารถใช้ได้หลายวิธี ตัวอย่างเช่น ร้านขายของชำสามารถใช้ข้อมูลดังกล่าวสำหรับการจัดวางผลิตภัณฑ์ได้

พวกเขาสามารถใช้กฎเกณฑ์สำหรับข้อเสนอโปรโมชันรายสัปดาห์หรือการรวมกลุ่มผลิตภัณฑ์ กฎการเชื่อมโยงที่ได้มาจากฐานข้อมูลของโรงพยาบาลเกี่ยวกับอาการของผู้ป่วยในระหว่างการรักษาตัวในโรงพยาบาลติดต่อกันสามารถช่วยค้นหา "อาการใดจะตามด้วยอาการอื่น" เพื่อช่วยทำนายอาการในอนาคตของผู้ป่วยที่กลับมา

การลดข้อมูล − Data mining ใช้กับข้อมูลที่เลือกในฐานข้อมูลจำนวนมาก เมื่อการวิเคราะห์ข้อมูลและการขุดเสร็จสิ้นในบันทึกจำนวนมาก จะใช้เวลาประมวลผลสูงมาก ซึ่งพัฒนาเป็นไปไม่ได้และเป็นไปไม่ได้

สามารถลดเวลาในการประมวลผลสำหรับการวิเคราะห์ข้อมูล เทคนิคการลดข้อมูลจะใช้เพื่อให้ได้การแสดงชุดข้อมูลที่ลดลงซึ่งมีปริมาณน้อยกว่ามากโดยการรักษาความสมบูรณ์ของข้อมูลต้นฉบับ การลดข้อมูลจะทำให้ประสิทธิภาพของกระบวนการขุดข้อมูลดีขึ้นซึ่งให้ผลการวิเคราะห์ที่เหมือนกัน

การลดข้อมูลมีจุดมุ่งหมายเพื่อให้คำจำกัดความกระชับยิ่งขึ้น เมื่อขนาดข้อมูลมีขนาดเล็กลง การใช้อัลกอริธึมที่ครบถ้วนและมีค่าใช้จ่ายสูงในการคำนวณจะง่ายกว่า การลดลงของข้อมูลอาจขึ้นอยู่กับจำนวนแถว (ระเบียน) หรือจำนวนคอลัมน์ (ขนาด)