Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> Python

วิธีแปลงไฟล์ PDF เป็นไฟล์ Excel โดยใช้ Python


Python มีชุดไลบรารีขนาดใหญ่สำหรับจัดการการดำเนินการประเภทต่างๆ ในบทความนี้ เราจะมาดูวิธีการแปลงไฟล์ pdf เป็นไฟล์ Excel มีแพ็คเกจต่าง ๆ ใน python เพื่อแปลง pdf เป็น CSV แต่เราจะใช้โมดูล Tabula-py ส่วนหลักของ tabula-py เขียนด้วยภาษา Java ที่อ่านเอกสาร pdf และแปลง python DataFrame เป็นวัตถุ JSON

เพื่อทำงานกับ tabula-py เราต้องติดตั้ง java ไว้ในระบบของเรา ตอนนี้ ในการแปลงไฟล์ pdf เป็น csv เราจะทำตามขั้นตอน -

  • ขั้นแรก ติดตั้งแพ็คเกจที่จำเป็นโดยพิมพ์ pip install tabula-py ในเชลล์คำสั่ง

  • ตอนนี้อ่านไฟล์โดยใช้ read_pdf("file location", pages=number) การทำงาน. สิ่งนี้จะส่งคืน DataFrame

  • แปลง DataFrame เป็นไฟล์ Excel โดยใช้ tabula.convert_into('pdf-filename', 'name_this_file.csv',output_format="csv", pages="all") . โดยทั่วไปจะส่งออกไฟล์ pdf เป็นไฟล์ excel

ตัวอย่าง

ในตัวอย่างนี้ เราได้ใช้ เอกสารกำหนดการจับคู่ IPL เพื่อแปลงเป็นไฟล์ excel

# Import the required Module
import tabula
# Read a PDF File
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# convert PDF into CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df)

ผลลัพธ์

การเรียกใช้โค้ดด้านบนจะแปลงไฟล์ pdf เป็นไฟล์ excel (csv)

วิธีแปลงไฟล์ PDF เป็นไฟล์ Excel โดยใช้ Python