程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

Python爬蟲編程思想(152):使用Scrapy抓取數據,使用ItemLoader保存多條抓取的數據

編輯:Python

        在上一篇文章中通過ItemLoader保存了一條抓取的數據,如果要保存多條或所有抓取的數據,就需要parse方法返回一個MyscrapyItem數組。

        下面的例子仍然會抓取上一篇文章例子中的博客列表頁面,但會保存抓取頁面所有的博客數據,包括每條博客的標題、摘要和Url。

import scrapy
from scrapy.loader import *
from scrapy.loader.processors import *
from bs4 import *
from myscrapy.items import MyscrapyItem
class ItemLoaderSpider1(scrapy.Spider):
name = 'ItemLoaderSpider1'
start_urls = [
'https://geekori.com/blogsCenter.php?uid=geekori'
]
def parse(self,response):
# 要返回的MyscrapyItem對象數組
items = []
# 獲取博客頁面的博客列表數據
sectionList = response.xpath('//*[@id="all"]/div[1]/section').extract()
# 通過循環迭代處理每一條博客列表數據
for section in sectionList:

  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved