程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

python爬蟲入門案例day06:QianTu

編輯:Python

python爬蟲入門案例day06:QianTu

七夕文化,農歷七月七日是牛郎織女相會之日,七夕文化宣傳離不開海
報宣傳,七夕文化中的牛郎織女神話傳說歌頌了忠貞不渝的婚愛觀,體
現了人們對理想愛情的向往和追求,它傳承並發揚了中華民族的傳統美
德,體現的是一種強烈的責任心,好了話不多說,下面直接進入爬蟲
`` ``

開發環境

1、window11
2、python3.7
3、PyCharm Community Edition 2021.2.1
4、雙核浏覽器
5、浏覽器自帶開發者工具

網站分析

 在下拉網頁的過程中發現,不會加載出新的圖片,且網頁進行了翻頁處理,
點擊下一頁網頁網址就會發生變化,對網頁進行抓包,對數據包中返回的
數據進行查找data-original,發現能查找到海報的鏈接,如圖:

數據解析分析

 一眼可以看出海報鏈接數據結構簡單,可以直接使用re進行解析,也可以選
擇使用xpath網頁元素標簽定位來解析海報鏈接,這裡我們使用re進行爬蟲
程序的開發

源代碼

注意要點

網頁源碼編碼格式為gbk,如圖:

爬取到的七夕海報

知識點總結

1、我們在分析網頁的過程中,一定要先確定網頁是靜態網頁還是動態網頁,其
次,再去確認我們要爬取的數據是否通過js代碼渲染;
2、我們爬蟲最基本的反爬手段就是請求頭中添加真是浏覽器的user-agent,
有些網站服務器會檢查請求頭中是否有Referer;
3、網頁需要進行翻頁時,在已知頁數的情況下,我們選擇for去拼接待爬取的
url;
4、在使用re解析數據時,一定要先對正則字符串進行編譯,re.compile('正則字符串');
5、在爬蟲開發過程中盡可能多的去使用yield關鍵字;

  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved