程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

利用python自動爬取濟南市統計局官網數據

編輯:Python

#一、查找網站

##(一)打開濟南市統計局官網(http://jntj.jinan.gov.cn/col/col18253/index.html) ##(二)打開“2021年全年數據”鏈接 ##(三)隨便找到一個表格,右鍵點擊檢查 ##(四)數據請求方式為get,網頁編寫方式為html,表格格式為(table)標簽 #二、編寫代碼

##(一)導入需要用到的庫

import pandas as pd # 存入數據
import requests # 發送請求

##(二)定義目標網址

url = 'http://jntj.jinan.gov.cn/art/2022/2/7/art_18279_4745121.html'  # 目標網址

##(三)定義一個請求頭,並發送請求

header = {  # 請求頭
   'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36', }
r = requests.get(url, headers=header)  # 發送請求

##(四)讀取請求返回的頁面內容

df = pd.read_html(r.content)  
table_count = len(df)
print('共檢測到{}個表格數據!'.format(table_count))

##(五)存入數據

with pd.ExcelWriter('data.xlsx') as writer:
   for i in range(2, table_count - 1):  # 第0、1、-1個表格不是需要的,所有從第2個開始
      df[i].to_excel(writer, sheet_name=str(i), index=False, header=False)
      print('已保存完成:第{}個表格'.format(str(i)))

#三、全套代碼如下

import pandas as pd # 存入數據
import requests # 發送請求
url = 'http://jntj.jinan.gov.cn/art/2022/2/7/art_18279_4745121.html'  # 目標網址
header = {  # 請求頭
   'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36', }
r = requests.get(url, headers=header)  # 發送請求
df = pd.read_html(r.content)
table_count = len(df)
print('共檢測到{}個表格數據!'.format(table_count))
with pd.ExcelWriter('data.xlsx') as writer:
   for i in range(2, table_count - 1):  # 第0、1、-1個表格不是需要的,所有從第2個開始
      df[i].to_excel(writer, sheet_name=str(i), index=False, header=False)
      print('已保存完成:第{}個表格'.format(str(i)))

#四、點擊運行 #五、在excel中查看導出的數據 #六、共有21個表格,全部導出成功,僅挑選兩個作為示例


  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved