Python เป็นที่รู้จักกันดีในเรื่องไลบรารีแพ็คเกจขนาดใหญ่ ด้วยความช่วยเหลือของไลบรารี เราจะมาดูวิธีการแปลงไฟล์ PDF เป็นไฟล์ CSV ไฟล์ CSV เป็นเพียงคอลเล็กชันของข้อมูล ที่อยู่ในกรอบพร้อมกับชุดของแถวและคอลัมน์ มีแพ็คเกจมากมายในไลบรารี Python เพื่อแปลง PDF เป็น CSV แต่เราจะใช้ โมดูล Tabula-py . ส่วนหลักของ tabula-py เขียนด้วยภาษาจาวาที่อ่านเอกสาร PDF ก่อนและแปลง Python DataFrame เป็นวัตถุ JSON
เพื่อทำงานกับ tabula-py เราต้องติดตั้ง Java ไว้ล่วงหน้าในระบบของเรา ในการแปลงไฟล์ PDF เป็น CSV เราจะทำตามขั้นตอนเหล่านี้ -
-
ขั้นแรก ติดตั้งแพ็คเกจที่จำเป็นโดยพิมพ์ pip install tabula-py ในเชลล์คำสั่ง
-
ตอนนี้ อ่านไฟล์โดยใช้ read_pdf("file location", pages=number) การทำงาน. สิ่งนี้จะส่งคืน DataFrame
-
แปลง DataFrame เป็นไฟล์ Excel โดยใช้ tabula.convert_into('pdf-filename', 'name_this_file.csv',output_format="csv", pages="all") . โดยทั่วไปแล้วจะส่งออกไฟล์ pdf ไปยังไฟล์ excel
ตัวอย่าง
ในตัวอย่างนี้ เราได้ใช้ เอกสารกำหนดการจับคู่ IPL เพื่อแปลงเป็นไฟล์ Excel
# Import the required Module
import tabula
# Read a PDF File
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# convert PDF into CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df) ผลลัพธ์
การเรียกใช้โค้ดด้านบนจะเป็นการแปลงไฟล์ PDF เป็นไฟล์ Excel (CSV)
