หน้าแรก
หน้าแรก
โซเชียลเน็ตเวิร์กคือชุดข้อมูลที่หลากหลายและหลากหลายซึ่งอธิบายโดยกราฟ โดยทั่วไป กราฟจะมีขนาดใหญ่มาก โดยมีโหนดที่สัมพันธ์กับวัตถุและขอบที่สัมพันธ์กับการเชื่อมต่อที่อธิบายความสัมพันธ์หรือการเชื่อมต่อระหว่างวัตถุ ทั้งโหนดและการเชื่อมต่อมีคุณลักษณะ ออบเจ็กต์สามารถมีป้ายกำกับคลาสได้ ลิงก์สามารถเป็นแบบทิศท
การขุดลิงค์มีภารกิจหลายอย่างดังต่อไปนี้ - การจัดประเภทวัตถุตามลิงก์ − ในการจำแนกประเภทแบบดั้งเดิม วัตถุจะถูกจำแนกตามคุณลักษณะที่กำหนดวัตถุเหล่านั้น การจัดประเภทตามลิงก์คาดการณ์หมวดหมู่ของออบเจกต์ที่ไม่เพียงแต่ขึ้นกับแอตทริบิวต์เท่านั้น แต่ยังขึ้นอยู่กับลิงก์ของออบเจ็กต์และแอตทริบิวต์ของออบเจ็กต์ท
การทำเหมืองลิงก์มีความท้าทายหลายประการ ดังนี้ - การพึ่งพาทางตรรกะกับทางสถิติ − การพึ่งพาสองประเภทอยู่ในโครงสร้างลิงก์กราฟ (แสดงถึงความสัมพันธ์เชิงตรรกะระหว่างออบเจ็กต์) และการพึ่งพาอาศัยกันที่น่าจะเป็น (แสดงถึงความสัมพันธ์ทางสถิติ เช่น ความสัมพันธ์ระหว่างแอตทริบิวต์ของออบเจ็กต์ ซึ่งโดยทั่วไปแล้ว
วิธีการทำเหมืองข้อมูลแบบหลายเชิงสัมพันธ์ (MRDM) ค้นหาการออกแบบที่มีตาราง (ความสัมพันธ์) หลายรายการจากฐานข้อมูลเชิงสัมพันธ์ แต่ละตารางหรือความสัมพันธ์แสดงถึงเอนทิตีหรือความสัมพันธ์ ซึ่งอธิบายโดยชุดของแอตทริบิวต์ ความเชื่อมโยงระหว่างความสัมพันธ์แสดงถึงความสัมพันธ์ระหว่างกัน มีวิธีหนึ่งในการใช้วิธีการท
การทำคลัสเตอร์แบบหลายความสัมพันธ์เป็นกระบวนการของการแบ่งพาร์ติชันออบเจ็กต์ข้อมูลออกเป็นชุดของคลัสเตอร์ตามความคล้ายคลึงกัน โดยใช้ข้อมูลในหลายความสัมพันธ์ ในส่วนนี้ จะแนะนำ CrossClus (Cross-relational Clustering พร้อมคำแนะนำผู้ใช้) ซึ่งเป็นอัลกอริทึมสำหรับการทำคลัสเตอร์แบบหลายเชิงสัมพันธ์ที่สำรวจวิธีใ
ตัวระบุอ็อบเจ็กต์สามารถสรุปได้ดังนี้ ประการแรก ตัวระบุอ็อบเจ็กต์ ถูกกำหนดให้เป็นแบบทั่วไปกับตัวระบุของคลาสย่อยที่ต่ำที่สุดที่อ็อบเจ็กต์อยู่ ในทางกลับกัน ตัวระบุของคลาสย่อยนี้สามารถถูกทำให้เป็นแบบทั่วไปไปยังตัวระบุระดับ/คลาสย่อยที่สูงกว่า โดยการปีนขึ้นลำดับชั้นของคลาส/คลาสย่อย ในทำนองเดียวกัน คลาสหรื
ฐานข้อมูลเชิงพื้นที่ช่วยบันทึกข้อมูลที่เกี่ยวข้องกับพื้นที่จำนวนมาก รวมถึงแผนที่ การสำรวจระยะไกลที่ประมวลผลล่วงหน้า หรือบันทึกภาพทางการแพทย์ และข้อมูลการออกแบบชิป VLSI ฐานข้อมูลเชิงพื้นที่มีคุณสมบัติหลายอย่างที่แยกความแตกต่างจากฐานข้อมูลเชิงสัมพันธ์ โดยจะมีข้อมูลเชิงทอพอโลยีและ/หรือระยะทาง ซึ่งโดยปก
มีปัญหาท้าทายหลายประการเกี่ยวกับการก่อสร้างและการใช้คลังข้อมูลเชิงพื้นที่ ความท้าทายแรกคือการรวมข้อมูลเชิงพื้นที่จากแหล่งและระบบที่ต่างกัน ข้อมูลเชิงพื้นที่มักจะเก็บไว้ในบริษัทอุตสาหกรรมและหน่วยงานภาครัฐต่างๆ โดยใช้รูปแบบข้อมูลที่หลากหลาย รูปแบบข้อมูลไม่ได้เป็นเพียงโครงสร้างเฉพาะ (เช่น ข้อมูลเชิงพื้
WaveCluster เป็นอัลกอริธึมการทำคลัสเตอร์แบบหลายความละเอียดที่สรุปลำดับแรกโดยใช้สถาปัตยกรรมกริดแบบหลายมิติบนพื้นที่ข้อมูล สามารถใช้การแปลงเวฟเล็ตเพื่อเปลี่ยนพื้นที่คุณลักษณะเดิม ค้นหาโดเมนหนาแน่นในพื้นที่ที่แปลงแล้ว ในวิธีนี้ เซลล์กริดแต่ละเซลล์จะสรุปข้อมูลของกลุ่มจุดที่แมปเข้าไปในเซลล์ ข้อมูลสรุปนี
อัลกอริธึม EM (Expectation-Maximization) เป็นอัลกอริธึมการปรับแต่งซ้ำที่มีชื่อเสียงซึ่งสามารถใช้สำหรับการค้นหาค่าประมาณพารามิเตอร์ ถือได้ว่าเป็นส่วนขยายของกระบวนทัศน์ k-mean ซึ่งสร้างวัตถุให้กับคลัสเตอร์ที่มีความคล้ายคลึงกันมากที่สุด ขึ้นอยู่กับค่าเฉลี่ยของคลัสเตอร์ EM สร้างแต่ละอ็อบเจ็กต์ไปยังคลัส
การจัดกลุ่มแนวคิดเป็นรูปแบบหนึ่งของการจัดกลุ่มในการเรียนรู้ของเครื่องที่ เมื่อกำหนดชุดของออบเจ็กต์ที่ไม่มีป้ายกำกับ จะทำให้การออกแบบการจัดหมวดหมู่เหนืออ็อบเจ็กต์ ต่างจากการทำคลัสเตอร์ทั่วไปซึ่งโดยทั่วไปจะระบุกลุ่มของออบเจ็กต์ที่คล้ายกัน การจัดกลุ่มแนวคิดไปไกลกว่านั้นอีกขั้นด้วยการค้นหาคำจำกัดความลัก
การทำคลัสเตอร์ตามข้อจำกัดจะค้นหาคลัสเตอร์ที่ตรงตามการตั้งค่าหรือข้อจำกัดที่ผู้ใช้ระบุ มันขึ้นอยู่กับลักษณะของข้อจำกัด การจัดกลุ่มตามข้อจำกัดสามารถนำมาใช้แทนวิธีการที่แตกต่างกัน ข้อจำกัดมีหลายประเภทดังนี้ − ข้อจำกัดในแต่ละออบเจ็กต์ − มันสามารถกำหนดข้อจำกัดบนอ็อบเจ็กต์ที่จะจัดกลุ่มได้ ตัวอย่างเช่น
การทำคลัสเตอร์แบบกึ่งดูแลคือวิธีการแบ่งพาร์ติชั่นข้อมูลที่ไม่มีป้ายกำกับโดยการสร้างการใช้ความรู้โดเมน โดยทั่วไปจะแสดงเป็นข้อจำกัดแบบคู่ระหว่างอินสแตนซ์หรือเป็นชุดของอินสแตนซ์ที่มีป้ายกำกับเพิ่มเติม คุณภาพของการจัดกลุ่มแบบไม่มีผู้ดูแลสามารถปรับปรุงได้โดยใช้โครงสร้างการกำกับดูแลที่อ่อนแอ เช่น ในรูปแบ
วัตถุ o ในชุดข้อมูล S เป็นค่าผิดปกติตามระยะทาง (DB) โดยมีพารามิเตอร์ p และ d เช่น DB (p, d) หากเศษ p ขั้นต่ำของวัตถุใน S อยู่ที่ระยะห่างที่สูงกว่า d จาก o กล่าวคือ แทนที่จะขึ้นอยู่กับการทดสอบทางสถิติ มันสามารถนึกถึงค่าผิดปกติตามระยะทางเป็นวัตถุที่มีเพื่อนบ้านไม่เพียงพอ เพื่อนบ้านจะแสดงตามระยะทางจาก
BIRCH แสดงถึงการลดและการจัดกลุ่มแบบวนซ้ำที่สมดุลโดยใช้ลำดับชั้น ได้รับการออกแบบมาสำหรับการทำคลัสเตอร์เร็กคอร์ดตัวเลขจำนวนมากโดยการรวมการทำคลัสเตอร์แบบลำดับชั้นและวิธีการจัดคลัสเตอร์อื่นๆ รวมถึงการแบ่งพาร์ติชันแบบวนซ้ำ BIRCH นำเสนอสองแนวคิด คือ คุณลักษณะการทำคลัสเตอร์และแผนผังคุณลักษณะการทำคลัสเตอร์
อัลกอริธึมต้นไม้ Hoeffding เป็นวิธีการเรียนรู้แผนผังการตัดสินใจสำหรับการจัดประเภทข้อมูลสตรีม เริ่มแรกใช้เพื่อติดตามการคลิกสตรีมของเว็บและสร้างแบบจำลองเพื่อคาดการณ์ว่าเว็บโฮสต์และเว็บไซต์ใดที่ผู้ใช้น่าจะเข้าถึง โดยปกติจะใช้เวลา sublinear และสร้างโครงสร้างการตัดสินใจที่เกือบจะเหมือนกันกับของผู้เรียนแบ
CluStream เป็นอัลกอริธึมสำหรับการจัดกลุ่มของสตรีมข้อมูลที่พัฒนาขึ้นโดยอิงจากการค้นหาคลัสเตอร์ออนไลน์ที่ผู้ใช้ระบุ มันแบ่งกระบวนการจัดกลุ่มออกเป็นส่วนประกอบออนไลน์และออฟไลน์ ส่วนประกอบออนไลน์คำนวณและจัดเก็บสถิติสรุปเกี่ยวกับสตรีมข้อมูลโดยใช้ไมโครคลัสเตอร์ และทำการคำนวณออนไลน์ส่วนเพิ่มและบำรุงรักษาไม
ฐานข้อมูลอนุกรมเวลาประกอบด้วยลำดับของค่าหรือเหตุการณ์ที่เข้าถึงได้ตลอดการประเมินเวลาซ้ำๆ โดยทั่วไป ค่าต่างๆ จะคำนวณในช่วงเวลาเท่ากัน (เช่น รายชั่วโมง รายวัน รายสัปดาห์) ฐานข้อมูลอนุกรมเวลาเป็นที่นิยมในหลาย ๆ แอพพลิเคชั่น เช่น การวิเคราะห์ตลาดหุ้น การพยากรณ์เศรษฐกิจและการขาย การวิเคราะห์งบประมาณ การศ
การวิเคราะห์การทดสอบความไม่ลงรอยกันทางสถิติสองสมมติฐาน สมมติฐานการทำงานและสมมติฐานที่แตกต่างกัน สมมติฐานการทำงาน H คือคำสั่งที่ว่าชุดข้อมูลทั้งหมดของวัตถุ n รายการมาจากรูปแบบการกระจายเริ่มต้น F เช่น H:oi Î F โดยที่ i =1, 2, n. สมมติฐานจะยังคงอยู่หากไม่มีหลักฐานสำคัญทางสถิติที่สนับสนุนการปฏิเสธ การท
เทคนิคการจัดกลุ่มแบบลำดับชั้นทำงานโดยการรวมออบเจ็กต์ข้อมูลเข้ากับแผนผังของคลัสเตอร์ อัลกอริธึมการจัดกลุ่มแบบลำดับชั้นมีทั้งจากบนลงล่างหรือล่างขึ้นบน คุณภาพของวิธีการจัดกลุ่มแบบลำดับชั้นที่แท้จริงลดลงจากการที่ไม่สามารถปรับใช้การปรับปรุงได้เมื่อการตัดสินใจรวมหรือแยกเสร็จสมบูรณ์ การรวมคลัสเตอร์จะขึ้นอย