การวิเคราะห์ข้อมูล คือการประมวลผลข้อมูลเพื่อดึงข้อมูลที่เป็นประโยชน์ซึ่งสนับสนุนเครื่องในการตัดสินใจ การประมวลผลข้อมูลเกี่ยวข้องกับการทำความสะอาด การสร้างใหม่ และตรวจสอบข้อมูล
การวิเคราะห์ข้อมูลต้องใช้พลังการประมวลผลสูง เนื่องจากข้อมูลในการประมวลผลมีขนาดใหญ่เกินไป จึงมีเครื่องมือเฉพาะสำหรับการวิเคราะห์ข้อมูล
เครื่องมือวิเคราะห์ข้อมูลที่เป็นที่นิยม ได้แก่ −
-
การเขียนโปรแกรม R
R เป็นหนึ่งในเครื่องมือที่ดีที่สุดและใช้กันอย่างแพร่หลายมากที่สุดสำหรับการวิเคราะห์ข้อมูลที่มีให้สำหรับแพลตฟอร์มหลักทั้งหมด เช่น Windows, macOS, Unix พบการใช้งานในการสร้างแบบจำลองข้อมูลและสถิติ การจัดการและการแสดงข้อมูลขนาดใหญ่อย่างง่ายดายทำได้โดยใช้ R เนื่องจากมีการรองรับไลบรารีขนาดใหญ่สำหรับการวิเคราะห์ข้อมูล มีแพ็คเกจ R 11,556 แพ็คเกจที่ทำให้งานของ Data Scientist เป็นเรื่องง่าย
-
หลาม
ภาษาโปรแกรมอื่นในรายการ python เป็นภาษาโปรแกรมอเนกประสงค์และหลากหลายที่สุด มีการใช้กันอย่างแพร่หลายเนื่องจากมีห้องสมุดขนาดใหญ่และเป็นธรรมชาติที่เข้าใจง่าย เป็นเรื่องปกติในหมู่ผู้ใช้ที่ต้องการเครื่องมือที่มีทั้งฟีเจอร์ของแมชชีนเลิร์นนิงและการวิเคราะห์ข้อมูล เนื่องจากมีแพ็คเกจขนาดใหญ่รองรับทั้งคู่
-
โต๊ะสาธารณะ
เครื่องมือสร้างภาพข้อมูลฟรีที่สร้างการแสดงภาพ แผนที่ และแดชบอร์ด ฯลฯ สามารถเชื่อมต่อกับแหล่งข้อมูลเพื่อดึงข้อมูลสำหรับการสร้างภาพข้อมูลได้อย่างง่ายดาย และยังสนับสนุนการแบ่งปันการแสดงภาพให้กับลูกค้าหรือบนโซเชียลมีเดีย มีความสามารถในการประมวลผลข้อมูลขนาดใหญ่และแสดงภาพข้อมูลได้ดีขึ้น
-
SAS
SAS คือสภาพแวดล้อมของ cum ภาษาโปรแกรมที่ใช้สำหรับการจัดการข้อมูล ใช้ในการวิเคราะห์ชุดข้อมูลขนาดใหญ่และจัดการ เป็นเครื่องมือทางการตลาดโซเชียลมีเดียที่มีประสิทธิภาพ
-
Microsoft Excel
เป็นเครื่องมือพื้นฐานที่ใช้งานง่ายสำหรับการวิเคราะห์ นักวิทยาศาสตร์ข้อมูลใช้สิ่งนี้เป็นเครื่องมือระดับแรก เป็นเครื่องมือสำคัญในการดูตัวอย่างชุดข้อมูลและเพิ่มตัวกรองข้อมูล มีการวิเคราะห์ธุรกิจที่ล้ำหน้ามากเพื่อช่วยผู้ใช้ในการสร้างแบบจำลอง
-
อาปาเช่สปาร์ค
Apache Spark Apache spark เป็นเครื่องมือประมวลผลข้อมูลที่ปรับขนาดได้ซึ่งใช้ในการทำงานกับคลัสเตอร์ข้อมูล Hadoop เป็นเครื่องมือที่ช่วยวิทยาศาสตร์ข้อมูลและใช้สำหรับการพัฒนาโมเดลแมชชีนเลิร์นนิงเนื่องจากสนับสนุนเทคนิคต่างๆ เช่น การจัดประเภท การถดถอย การจัดกลุ่ม และการกรองเพื่อช่วยในการเรียนรู้จากชุดข้อมูล