程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

python提取pdf文件數據

編輯:Python
  • 首先要安裝這倆個庫
pip install pdfplumber
pip install openpyxl
  • 1.初始化路徑
path = r"C:\Users\lenovo\Desktop\論文和面試\以客戶為中心.pdf"
  • 2.打開pdf文件
pdf_mt = pdfplumber.open(path)
pdf_mt
  • 3.獲取數據所在頁(總共多少頁)
# 獲取到數據所在頁 list --> [第一頁的對象,第二頁的對象,...第n頁的對象]
all_pages = pdf_mt.pages
all_pages
  • 4.獲取pdf每一頁文本數據(前四十頁的文本數據)
for pdf_pg in all_pages[0:40]:
print(pdf_pg.extract_text())
  • 5.獲取表格內容
for pdf_pg in all_pages[0:40]:
print(pdf_pg.extract_tables())
  • 6.將數據保存到excel
# 創建workbook對象
wb = Workbook()
# 激活工作表
ws = wb.active
for pdf_pg in need_pages:
# print(pdf_pg)
# 獲取每頁的文本內容
# print(pdf_pg.extract_text())
# 獲取表格內容 表格:二維 [[],[]]
# print(pdf_pg.extract_tables()) 
# 表格有行有列的二維數據,獲取二維的列表 
for pdf_tb in pdf_pg.extract_tables():
# print(pdf_tb) 
# 將數據一行一行的寫入工作表
for row in pdf_tb:
ws.append(row)
wb.save("demo3.xlsx")

  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved