เมื่อรันโปรแกรม python เราจำเป็นต้องใช้ชุดข้อมูลสำหรับการวิเคราะห์ข้อมูล Python มีโมดูลต่างๆ ที่ช่วยเราในการนำเข้าข้อมูลภายนอกในรูปแบบไฟล์ต่างๆ ไปยังโปรแกรม python ในตัวอย่างนี้ เราจะมาดูวิธีการนำเข้าข้อมูลในรูปแบบต่างๆ ไปยังโปรแกรม python
นำเข้าไฟล์ csv
โมดูล csv ช่วยให้เราอ่านแต่ละแถวในไฟล์โดยใช้เครื่องหมายจุลภาคเป็นตัวคั่น ก่อนอื่นเราเปิดไฟล์ในโหมดอ่านอย่างเดียวแล้วกำหนดตัวคั่น สุดท้ายใช้ for loop เพื่ออ่านแต่ละแถวจากไฟล์ csv
ตัวอย่าง
import csv with open("E:\\customers.csv",'r') as custfile: rows=csv.reader(custfile,delimiter=',') for r in rows: print(r)
ผลลัพธ์
การเรียกใช้โค้ดข้างต้นทำให้เราได้ผลลัพธ์ดังต่อไปนี้ -
['customerID', 'gender', 'Contract', 'PaperlessBilling', 'Churn'] ['7590-VHVEG', 'Female', 'Month-to-month', 'Yes', 'No'] ['5575-GNVDE', 'Male', 'One year', 'No', 'No'] ['3668-QPYBK', 'Male', 'Month-to-month', 'Yes', 'Yes'] ['7795-CFOCW', 'Male', 'One year', 'No', 'No'] …… …….
กับหมีแพนด้า
จริงๆ แล้ว ไลบรารี่แพนด้าสามารถจัดการไฟล์ส่วนใหญ่ได้ ซึ่งรวมถึงไฟล์ csv ในโปรแกรมนี้ มาดูกันว่าไลบรารี่ pandas จัดการกับไฟล์ excel อย่างไรโดยใช้โมดูล read_excel ในตัวอย่างด้านล่าง เราอ่านเวอร์ชัน excel ของไฟล์ด้านบนและได้ผลลัพธ์แบบเดียวกันเมื่อเราอ่านไฟล์
ตัวอย่าง
import pandas as pd df = pd.ExcelFile("E:\\customers.xlsx") data=df.parse("customers") print(data.head(10))
ผลลัพธ์
การเรียกใช้โค้ดข้างต้นทำให้เราได้ผลลัพธ์ดังต่อไปนี้ -
customerID gender Contract PaperlessBilling Churn 0 7590-VHVEG Female Month-to-month Yes No 1 5575-GNVDE Male One year No No 2 3668-QPYBK Male Month-to-month Yes Yes 3 7795-CFOCW Male One year No No 4 9237-HQITU Female Month-to-month Yes Yes 5 9305-CDSKC Female Month-to-month Yes Yes 6 1452-KIOVK Male Month-to-month Yes No 7 6713-OKOMC Female Month-to-month No No 8 7892-POOKP Female Month-to-month Yes Yes 9 6388-TABGU Male One year No No
ด้วย pyodbc
นอกจากนี้เรายังสามารถเชื่อมต่อกับเซิร์ฟเวอร์ฐานข้อมูลโดยใช้โมดูลที่เรียกว่า pyodbc ซึ่งจะช่วยให้เรานำเข้าข้อมูลจากแหล่งข้อมูลเชิงสัมพันธ์โดยใช้คิวรี sql แน่นอนว่าเราต้องกำหนดรายละเอียดการเชื่อมต่อไปยัง db ก่อนส่งคำถาม
ตัวอย่าง
import pyodbc sql_conn = pyodbc.connect("Driver={SQL Server};Server=serverName;UID=UserName;PWD=Password;Database=sqldb;") data_sql = pd.read_sql_query(SQL QUERY’, sql_conn) data_sql.head()
ผลลัพธ์
ขึ้นอยู่กับการสืบค้น SQL ผลลัพธ์จะปรากฏขึ้น