หน้าแรก
หน้าแรก
การจัดตำแหน่งขึ้นอยู่กับความจริงที่ว่าสิ่งมีชีวิตทั้งหมดสัมพันธ์กันโดยวิวัฒนาการ วิธีนี้ใช้ว่านิวคลีโอไทด์ (DNA, RNA) และชุดโปรตีนของสปีชีส์ที่อยู่ใกล้กันมากขึ้นในวิวัฒนาการต้องแสดงความคล้ายคลึงกันที่สูงขึ้น การจัดตำแหน่งเป็นขั้นตอนของการจัดเรียงลำดับเพื่อให้ได้ระดับความเหมือนกันสูงสุด ซึ่งกำหนดระด
อัลกอริธึม BLAST ผลิตโดย Altschul, Gish, Miller ประมาณปี 1990 ที่ศูนย์ข้อมูลเทคโนโลยีชีวภาพแห่งชาติ (NCBI) BLAST ใช้เพื่อให้ได้มาซึ่งความสัมพันธ์เชิงหน้าที่และวิวัฒนาการระหว่างลำดับต่างๆ และเพื่อช่วยให้รู้จักสมาชิกของตระกูลยีน เว็บไซต์ NCBI มีฐานข้อมูล BLAST ทั่วไปหลายฐานข้อมูล ตามเนื้อหาจะรวมกันเป
การเผยแพร่ Tuple ID เป็นแนวทางสำหรับการนำ virtual join ไปใช้ ซึ่งช่วยปรับปรุงประสิทธิภาพของการจำแนกประเภทพหุสัมพันธ์อย่างมาก แทนที่จะรวมความสัมพันธ์ทางกายภาพ พวกเขาจะถูกรวมเข้าด้วยกันโดยการเชื่อมต่อ ID ของสิ่งอันดับเป้าหมายกับสิ่งอันดับในความสัมพันธ์ที่ไม่ใช่เป้าหมาย ในวิธีนี้ เพรดิเคตสามารถคำนวณได
Multi-relational clustering คือเฟสของการแบ่งพาร์ติชันออบเจ็กต์ข้อมูลออกเป็นกลุ่มของคลัสเตอร์ขึ้นอยู่กับความคล้ายคลึงกัน โดยใช้ข้อมูลในหลายความสัมพันธ์ CrossClus แสดงถึงการทำคลัสเตอร์ข้ามสัมพันธ์พร้อมคำแนะนำผู้ใช้ เป็นอัลกอริทึมสำหรับการทำคลัสเตอร์แบบหลายความสัมพันธ์ที่วิเคราะห์วิธีใช้คำแนะนำผู้ใช้ใน
แอ็ตทริบิวต์ที่กำหนดค่าไว้สามารถเป็นประเภทที่เป็นเนื้อเดียวกันหรือต่างกันได้ โดยทั่วไป ข้อมูลที่ตั้งไว้สามารถสรุปได้โดย การวางนัยทั่วไปของทุกค่าในชุดให้เป็นแนวคิดระดับสูงที่เทียบเท่ากัน ที่มาของพฤติกรรมปกติของชุด รวมถึงองค์ประกอบหลายรายการในชุด ประเภทหรือช่วงค่าในชุด ค่าเฉลี่ยถ่วงน้ำหนักสำหรับ
การวิเคราะห์ข้อมูลเชิงพื้นที่เชิงสถิติเป็นเทคนิคที่มีชื่อเสียงในการสำรวจข้อมูลเชิงพื้นที่และการวิเคราะห์ข้อมูลทางภูมิศาสตร์ คำว่า geostatistics เกี่ยวข้องกับพื้นที่ทางภูมิศาสตร์ที่ต่อเนื่อง ในขณะที่คำว่า สถิติเชิงพื้นที่ เกี่ยวข้องกับพื้นที่ที่ไม่ต่อเนื่อง ในรูปแบบทางสถิติที่จัดการบันทึกที่ไม่ใช่เช
การจัดประเภทเอกสารอัตโนมัติเป็นบริการขุดข้อความที่จำเป็น เนื่องจากมีไฟล์ออนไลน์จำนวนมาก การจัดระเบียบบันทึกดังกล่าวเป็นคลาสโดยอัตโนมัติจึงเป็นสิ่งสำคัญ เพื่อรองรับการดึงเอกสารและการวิเคราะห์ที่ต่อเนื่องกัน การจัดประเภทเอกสารถูกนำมาใช้ในการติดแท็กหัวข้ออัตโนมัติ (เช่น การกำหนดป้ายกำกับให้กับเอกสาร)
การจัดกลุ่มเอกสารเป็นเทคนิคที่สำคัญสำหรับการจัดระเบียบไฟล์ในลักษณะที่ไม่มีผู้ดูแล เมื่อเอกสารถูกแสดงเป็นเวกเตอร์ระยะ สามารถใช้วิธีการจัดกลุ่มได้ พื้นที่เอกสารมีมิติขนาดใหญ่อย่างต่อเนื่องตั้งแต่หลายร้อยถึงหลายพัน เนื่องจากการสาปแช่งของมิติ จึงเหมาะสมที่จะฉายภาพเอกสารเป็นสเปซย่อยที่มีมิติต่ำกว่า ซึ่ง
พารามิเตอร์ทางสถิติสามารถใช้ในแนวทางจากบนลงล่างตามตารางได้ดังนี้ ขั้นแรก เลเยอร์ภายในสถาปัตยกรรมแบบลำดับชั้นจะถูกตัดสินใจว่าจะเริ่มขั้นตอนการตอบคำถาม โดยทั่วไปเลเยอร์นี้จะมีเซลล์จำนวนเล็กน้อย สำหรับทุกเซลล์ในเลเยอร์ปัจจุบัน เซลล์สามารถคำนวณช่วงความเชื่อมั่น (หรือช่วงความน่าจะเป็นโดยประมาณ) ที่สะท้อ
COBWEB รวมอ็อบเจ็กต์ในแผนผังการจัดหมวดหมู่ทีละส่วน COBWEB ลงมาตามเส้นทางที่จัดสรร รีเฟรชนับตามวิธีการ เพื่อค้นหา โฮสต์ที่ดีที่สุด หรือโหนดที่จะกำหนดวัตถุ การตัดสินใจนี้ขึ้นอยู่กับการค้นหาตำแหน่งวัตถุในแต่ละโหนดชั่วคราวและการคำนวณยูทิลิตี้หมวดหมู่ของผลลัพธ์ที่ได้ ตำแหน่งที่ส่งผลให้ยูทิลิตี้องค์ประกอ
CLIQUE เป็นอัลกอริธึมแรกที่คาดการณ์ไว้สำหรับการจัดกลุ่มย่อยของพื้นที่ย่อยที่มีขนาดเติบโตในพื้นที่ที่มีมิติสูง ในการคลัสเตอร์พื้นที่ย่อยที่มีขนาดเติบโต กระบวนการจัดกลุ่มเริ่มต้นที่พื้นที่ย่อยแบบมิติเดียวและเพิ่มขึ้นไปเป็นพื้นที่ย่อยที่มีมิติสูงกว่า เนื่องจาก CLIQUE แบ่งแต่ละส่วนข้อมูล เช่น สถาปัตยกร
PROCLUS ย่อมาจาก Projected Clustering เป็นเทคนิคการจัดกลุ่มพื้นที่ย่อยการลดขนาดตามปกติ นั่นคือ แทนที่จะเริ่มจากช่องว่างแต่ละมิติ มันเริ่มต้นด้วยการหาค่าประมาณดั้งเดิมของคลัสเตอร์ในพื้นที่แอตทริบิวต์ที่มีมิติสูง แต่ละมิติสร้างน้ำหนักสำหรับแต่ละคลัสเตอร์ และน้ำหนักที่รีเฟรชจะใช้ในการทำซ้ำครั้งถัดไปเพื
ควรใช้วิธีการจัดกลุ่มการแบ่งพาร์ติชันเพราะจะลดระยะห่างระหว่างชุดและศูนย์กลางคลัสเตอร์ หากเลือกวิธี k-mean ได้ ศูนย์คลัสเตอร์จะไม่สามารถใช้งานได้เนื่องจากมีสิ่งกีดขวาง ตัวอย่างเช่น กระจุกอาจกลายเป็นศูนย์กลางของทะเลสาบ กล่าวอีกนัยหนึ่ง วิธี k-medoids จะเลือกวัตถุภายในคลัสเตอร์เป็นศูนย์กลาง และรับประก
เทคนิคข้อยกเว้นตามลำดับจำลองวิธีการที่มนุษย์สามารถแยกแยะชุดที่ผิดปกติออกจากลำดับของวัตถุที่คาดว่าจะเหมือนกันได้ ช่วยให้ข้อมูลมีความซ้ำซ้อนโดยปริยาย จากชุดข้อมูล D ของ n วัตถุ จะสร้างลำดับของชุดย่อย {D1 , D2 ,..., Dม } ของวัตถุเหล่านี้ที่มี 2 ≤ m ≤ n รวมทั้ง $$\mathrm{D_{j−1}\subset D_{j}\:\:where\
อัลกอริทึมแบบสุ่ม − อัลกอริธึมแบบสุ่มในรูปแบบของสุ่มตัวอย่างและพิมพ์เขียว ใช้เพื่อจัดการกับสตรีมข้อมูลขนาดใหญ่ที่มีมิติสูง ความต้องการของการสุ่มทำให้อัลกอริธึมที่ง่ายขึ้นและมีประสิทธิภาพมากขึ้น ตรงกันข้ามกับอัลกอริธึมที่กำหนดขึ้นเองที่รู้จัก หากอัลกอริธึมแบบสุ่มส่งกลับคำตอบที่ถูกต้องอย่างต่อเนื่อง
ผู้ใช้สนับสนุนพารามิเตอร์อินพุต 2 ตัว ได้แก่ เกณฑ์ขั้นต่ำการสนับสนุน σ และข้อผิดพลาดที่ผูกไว้ก่อนหน้านี้ ซึ่งระบุเป็น ε กระแสที่เข้ามาจะถูกแบ่งออกเป็นกลุ่มตามทฤษฎีด้วยความกว้าง w =[1/ε]. ให้ N เป็นความยาวสตรีมปัจจุบัน เช่น จำนวนรายการที่ดูจนถึงปัจจุบัน อัลกอริทึมต้องการโครงสร้างข้อมูลรายการความถี่ส
คลัสเตอร์สตรีมข้อมูลอธิบายว่าเป็นคลัสเตอร์ของข้อมูลที่ปรากฏขึ้นอย่างต่อเนื่อง รวมถึงข้อมูลโทรศัพท์ ข้อมูลมัลติมีเดีย ธุรกรรมทางการเงิน ฯลฯ การจัดกลุ่มสตรีมข้อมูลโดยทั่วไปถือเป็นอัลกอริธึมการสตรีม และวัตถุประสงค์คือ ให้ลำดับของคะแนน เพื่อสร้างคลัสเตอร์ที่ดีที่สุด ของสตรีมโดยใช้หน่วยความจำและเวลาเพียง
STREAM เป็นอัลกอริธึมการประมาณองค์ประกอบคงที่แบบส่งผ่านแต่ละรายการที่สร้างขึ้นสำหรับปัญหา k-medians ปัญหา k-medians คือการจัดคลัสเตอร์ N จุดข้อมูลลงใน k คลัสเตอร์หรือกลุ่ม เพื่อลดข้อผิดพลาด sum squared error (SSQ) ระหว่างจุดและศูนย์กลางคลัสเตอร์ที่ได้รับมอบหมายให้น้อยที่สุด แนวคิดคือการกำหนดจุดที่คล
CBR ย่อมาจากการใช้เหตุผลตามกรณี ตัวแยกประเภท CBR ต้องการฐานข้อมูลของการแก้ปัญหาเพื่อชี้แจงปัญหาใหม่ ซึ่งแตกต่างจากตัวแยกประเภทเพื่อนบ้านที่ใกล้ที่สุด ซึ่งบันทึก tuples การฝึกอบรมเป็นจุดในพื้นที่ Euclidean CBR บันทึก tuples หรือ กรณี สำหรับการแก้ปัญหาเป็นการแทนสัญลักษณ์ที่ยากลำบาก CBR มีหลายแอปพลิเค
ตัวแบบเชิงเส้นทั่วไปกำหนดอำนาจทางทฤษฎีที่สามารถใช้การถดถอยเชิงเส้นเพื่อสร้างแบบจำลองของตัวแปรตอบสนองตามหมวดหมู่ ในแบบจำลองเชิงเส้นทั่วไป ความแปรปรวนของตัวแปรตอบสนอง y เป็นฟังก์ชันของค่าเฉลี่ยของ y ซึ่งแตกต่างจากการถดถอยเชิงเส้น โดยที่ความแปรปรวนของ y เป็นค่าคงที่ โมเดลเชิงเส้นตรงทั่วไป (GLM) เป็นกา