หน้าแรก
หน้าแรก
มีสามมาตรการที่ใช้เป็นตัวบ่งชี้ข้อยกเว้นเพื่อรองรับการจดจำความผิดปกติของข้อมูล การวัดเหล่านี้แสดงถึงระดับของความประหลาดใจที่ปริมาณในเซลล์มีอิทธิพลต่อค่าที่คาดหวัง การวัดจะถูกคำนวณและเชื่อมโยงกับทุกเซลล์ สำหรับการรวมทุกระดับ มีดังต่อไปนี้ รวมถึงการวัด SelfExp, InExp และ PathExp ที่อิงตามแนวทางเชิงตั
การสาปแช่งของมิติและความต้องการผลลัพธ์ที่เข้าใจได้ก่อให้เกิดความท้าทายอย่างมากในการค้นหาวิธีแก้ปัญหาที่มีประสิทธิภาพและปรับขนาดได้สำหรับปัญหาระดับลูกบาศก์ ปัญหาคิวบ์เกรดอาจจำกัดแต่รุ่นที่น่าสนใจ เรียกว่าการวิเคราะห์เกรเดียนต์หลายมิติที่จำกัด สามารถลดพื้นที่การค้นหาและได้ผลลัพธ์ที่น่าสนใจ มีประเภทขอ
การวางนัยทั่วไปของข้อมูลจะสรุปข้อมูลโดยแทนที่ค่าที่ค่อนข้างต่ำ (เช่น ค่าตัวเลขสำหรับอายุแอตทริบิวต์) ด้วยแนวคิดระดับสูงกว่า (เช่น อายุน้อย วัยกลางคน และอาวุโส) เนื่องจากข้อมูลที่บันทึกไว้ในฐานข้อมูลมีปริมาณมาก จึงเป็นประโยชน์ที่จะสามารถกำหนดแนวคิดให้กระชับและรัดกุมด้วยวิธีการทั่วไป (แทนที่จะเป็นแบบต
AOI ย่อมาจาก Attribute-Oriented Induction แนวทางการเหนี่ยวนำเชิงคุณลักษณะเพื่ออธิบายแนวคิดได้รับการเสนอครั้งแรกในปี 1989 เมื่อไม่กี่ปีก่อนที่จะมีการแนะนำวิธีดาต้าคิวบ์ แนวทางของ data cube นั้นขึ้นอยู่กับมุมมองที่เป็นรูปธรรมของข้อมูลเป็นหลัก ซึ่งโดยทั่วไปแล้วจะมีการคำนวณล่วงหน้าในคลังข้อมูล โดยทั่วไ
ลักษณะทั่วไปของแอตทริบิวต์ขึ้นอยู่กับกฎต่อไปนี้:หากมีการรวบรวมค่าที่แตกต่างกันจำนวนมากสำหรับแอตทริบิวต์ในความสัมพันธ์การทำงานดั้งเดิม และมีกลุ่มของตัวดำเนินการการวางนัยทั่วไปในแอตทริบิวต์ ดังนั้นตัวดำเนินการการวางนัยทั่วไปควรเลือกใช้กับแอตทริบิวต์ . กฎนี้ขึ้นอยู่กับเหตุผลต่อไปนี้ การใช้บริการ gener
การแบ่งแยกประเภทหรือการเปรียบเทียบลักษณะทุ่นระเบิดที่จัดหมวดหมู่คลาสเป้าหมายจากคลาสที่ต่างกัน คลาสเป้าหมายและคลาสที่ตัดกันควรเปรียบเทียบได้หากมีมิติและแอตทริบิวต์เหมือนกัน ตัวอย่างเช่น ทั้งสามคลาส บุคคล ที่อยู่ และองค์ประกอบ ไม่สามารถเปรียบเทียบกันได้ แต่ยอดขายในช่วง 3 ปีที่ผ่านมาเป็นชั้นเรียนที่เที
มีหลายเกณฑ์ของการทำเหมืองรูปแบบบ่อยครั้งซึ่งมีดังนี้ - ขึ้นอยู่กับความสมบูรณ์ของรูปแบบที่จะขุด − มันสามารถขุดคอลเลกชั่นทั้งหมดของชุดไอเท็มที่ใช้บ่อย ชุดไอเท็มที่ปิดบ่อย และชุดไอเท็มที่มีความถี่สูงสุดทั้งหมด โดยให้เกณฑ์ขั้นต่ำการสนับสนุน นอกจากนี้ยังสามารถดึงชุดไอเท็มที่จำกัดความถี่ได้ (มันสามารถตอ
Apriori เป็นอัลกอริธึมที่พัฒนาขึ้นโดย R. Agrawal และ R. Srikant ในปี 1994 โดยสร้างชุดรายการที่ใช้บ่อยสำหรับกฎการเชื่อมโยงแบบบูลีน อัลกอริธึมขึ้นอยู่กับกรณีที่อัลกอริธึมต้องการความรู้ก่อนหน้านี้เกี่ยวกับคุณสมบัติของชุดรายการบ่อยครั้ง Apriori ใช้วิธีการวนซ้ำที่เรียกว่าการค้นหาระดับ ซึ่ง k-itemsets สา
การทำเหมืองข้อมูลบนเว็บกำหนดกระบวนการของการใช้เทคนิคการทำเหมืองข้อมูลเพื่อดึงแนวโน้มรูปแบบที่เป็นประโยชน์และข้อมูลโดยทั่วไปด้วยความช่วยเหลือของเว็บโดยจัดการกับมันจากบันทึกและบริการบนเว็บ บันทึกของเซิร์ฟเวอร์ และไฮเปอร์ลิงก์ การขุดเว็บมีจุดมุ่งหมายเพื่อค้นหาการออกแบบในข้อมูลเว็บโดยการจัดกลุ่มและวิเคร
การทำเหมืองข้อมูลเชิงพื้นที่คือการประยุกต์ใช้การทำเหมืองข้อมูลกับแบบจำลองเชิงพื้นที่ ในการขุดข้อมูลเชิงพื้นที่ นักวิเคราะห์ใช้ข้อมูลทางภูมิศาสตร์หรือเชิงพื้นที่เพื่อสร้างข่าวกรองธุรกิจหรือผลลัพธ์ที่แตกต่างกัน ซึ่งจำเป็นต้องใช้วิธีการและทรัพยากรเฉพาะในการรับข้อมูลทางภูมิศาสตร์ในรูปแบบที่เกี่ยวข้องและ
การวิเคราะห์คลัสเตอร์เป็นสาขาหนึ่งของสถิติที่ได้รับการศึกษาอย่างกว้างขวางเป็นเวลาหลายปี ประโยชน์ของการใช้เทคนิคนี้คือสามารถค้นพบโครงสร้างหรือคลัสเตอร์ที่น่าสนใจได้โดยตรงจากข้อมูลโดยไม่ต้องใช้ความรู้พื้นฐานใดๆ เช่น ลำดับชั้นของแนวคิด อัลกอริธึมการจัดกลุ่มที่ใช้ในสถิติ เช่น PAM หรือ CLARA ได้รับการรา
การทำเหมืองข้อมูลชั่วคราวกำหนดกระบวนการดึงข้อมูลที่ไม่สำคัญ โดยนัย และอาจจำเป็นจากชุดข้อมูลชั่วคราวจำนวนมาก ข้อมูลชั่วคราวคือชุดของประเภทข้อมูลหลัก โดยทั่วไปแล้วจะเป็นค่าตัวเลข และเกี่ยวข้องกับการรวบรวมความรู้ที่เป็นประโยชน์จากข้อมูลชั่วคราว วัตถุประสงค์ของการขุดข้อมูลชั่วคราวคือการหารูปแบบชั่วคราว
การวิเคราะห์แนวโน้มกำหนดเทคนิคในการดึงแบบจำลองพฤติกรรมในอนุกรมเวลาที่สามารถซ่อนเสียงเล็กน้อยหรือทั้งหมดได้ วิธีการวิเคราะห์แนวโน้มมักใช้ในการตรวจหาการระบาดและการเพิ่มขึ้นหรือลดลงของการปรากฏตัวของโรคโดยไม่คาดคิด การเฝ้าติดตามแนวโน้มของโรค การประเมินประสิทธิผลของแผนงานและนโยบายการควบคุมโรค และการประเม
การเลือกชุดย่อยของแอตทริบิวต์จะลดขนาดชุดข้อมูลโดยลบแอตทริบิวต์ (หรือมิติข้อมูล) ที่ไม่เกี่ยวข้องหรือซ้ำซ้อน วัตถุประสงค์ของการเลือกชุดย่อยของแอตทริบิวต์คือการค้นหาชุดแอตทริบิวต์ขั้นต่ำเพื่อให้การกระจายความน่าจะเป็นของคลาสข้อมูลในเวลาต่อมาใกล้เคียงกับการกระจายดั้งเดิมที่ได้รับโดยใช้แอตทริบิวต์ทั้งหมด
ยูทิลิตี้นี้อยู่ในความจริงที่ว่าข้อมูลที่แปลงเวฟเล็ตสามารถถูกจำกัดได้ การประมาณค่าบีบอัดของข้อมูลสามารถเก็บไว้ได้โดยการบันทึกเพียงเศษเสี้ยวของหลักการของค่าสัมประสิทธิ์เวฟเล็ต ตัวอย่างเช่น สามารถรักษาค่าสัมประสิทธิ์เวฟเล็ตทั้งหมดที่สูงกว่าเกณฑ์ที่กำหนดโดยผู้ใช้บางส่วนได้ ค่าสัมประสิทธิ์อื่นๆ ตั้งค่าเ
การแยกย่อยตามเอนโทรปีเป็นวิธีการแยกจากบนลงล่างภายใต้การดูแล สำรวจข้อมูลการกระจายคลาสในการคำนวณและการเก็บรักษาจุดแยก (ค่าข้อมูลสำหรับการแยกช่วงแอตทริบิวต์) แยกแอตทริบิวต์ทางสถิติ A วิธีเลือกค่าของ A ที่มีเอนโทรปีต่ำสุดเป็นจุดแยก และแบ่งช่วงผลลัพธ์ซ้ำๆ เพื่อให้ปรากฏเป็นลำดับชั้น การแยกย่อยเฉพาะสร้างล
การวัดสามารถจัดเป็นสามองค์ประกอบ ได้แก่ การแจกแจง พีชคณิต และองค์รวม ขึ้นอยู่กับประเภทของฟังก์ชันรวมที่ใช้ จัดจำหน่าย − ฟังก์ชันรวมจะถูกกระจายหากสามารถคำนวณในลักษณะที่ส่งมอบได้ดังนี้ พิจารณาว่าข้อมูลเป็นอิสระจากกันเป็น n ชุด มันสามารถใช้บริการกับแต่ละพาร์ติชั่น ส่งผลให้มีค่ารวม n ค่า หากผลลัพธ์เปล
คลังข้อมูลเป็นแนวทางที่สามารถรวบรวมและจัดการข้อมูลจากหลายแหล่งเพื่อให้ธุรกิจมีความเข้าใจอย่างลึกซึ้งทางธุรกิจ คลังข้อมูลถูกสร้างขึ้นโดยเฉพาะสำหรับเป้าหมายของการตัดสินใจในการจัดการการสนับสนุน กล่าวอย่างง่าย ๆ คลังข้อมูลกำหนดฐานข้อมูลที่ได้รับการดูแลอย่างเป็นอิสระจากฐานข้อมูลการดำเนินงานขององค์กร ระบ
คลังข้อมูลเป็นแนวทางที่สามารถรวบรวมและจัดการข้อมูลจากแหล่งต่างๆ เพื่อให้ธุรกิจมีความเข้าใจอย่างลึกซึ้งทางธุรกิจที่มีความหมาย คลังข้อมูลได้รับการออกแบบมาโดยเฉพาะเพื่อรองรับการตัดสินใจของฝ่ายบริหาร กล่าวอย่างง่าย ๆ คลังข้อมูลกำหนดฐานข้อมูลที่ได้รับการดูแลอย่างเป็นอิสระจากฐานข้อมูลการดำเนินงานขององค์ก
การสำรองข้อมูลและการกู้คืนกำหนดกระบวนการสำรองระเบียนในวิธีการสูญหายและการตั้งค่าระบบที่ช่วยให้สามารถกู้คืนข้อมูลได้เนื่องจากการสูญหายของข้อมูล การสำรองข้อมูลจำเป็นต้องคัดลอกและเก็บถาวรข้อมูลคอมพิวเตอร์ เพื่อใช้ในกรณีที่ข้อมูลถูกลบหรือเสียหาย เป้าหมายของการสำรองข้อมูลคือการทำสำเนาข้อมูลที่สามารถต่ออ