程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> 采集天貓新百倫旗艦店商品數據,天貓新百倫旗艦店

采集天貓新百倫旗艦店商品數據,天貓新百倫旗艦店

編輯:關於PHP編程

采集天貓新百倫旗艦店商品數據,天貓新百倫旗艦店


1. 下載火蜘蛛采集器

 

 

火蜘蛛采集器下載地址:

http://firespider.duapp.com/FireSpiderWeb/index.html

 

 

 

2.安裝

 

火蜘蛛采集器包含了一個客戶端和一個服務端安裝包。安裝非常方便,一路下一步就可以安裝完成。具體安裝步驟可以參考它提供的安裝手冊。

 

3.啟動

 

啟動服務端:在桌面有個快捷方式“Fire Spider Server Startup”,右鍵-》以管理員身份運行。

啟動客戶端:雙擊桌面快捷方式“FireSpider”

 

4.試用

安裝之後默認已經包含了幾個采集任務了。打開客戶端,如下圖所示,選中一個任務後點擊“執行采集”。

 

 

可以看到采集開始執行了。

 

如果需要停止采集,選中采集任務,點擊“執行采集”按鈕旁邊的“退出”。

 

 

5.建立新百倫任務

安裝之後默認已經包含了一個采集駱駝天貓店的任務——“駱駝-列表頁”。我們只要參考這個,建一個自己的任務就可以了。比如我要采集 “新百倫旗艦店”,在天貓搜索“新百倫”進入新百倫天貓店,找到新百倫的列表頁,鏈接是這樣的:

 

http://newbalance.tmall.com/search.htm?spm=a220m.1000858.1000725.4.vvTbdj&rn=bda5ce8edbc3307bf802e68880861de3&user_number_id=520557274

 

接下來建一個采集新百倫的任務

 

在浏覽器輸出 http://localhost:8090/FireSpider/html/index.html 打開管理中心

 

 

新建一個任務,除了“任務名稱”,“鏈接”,“數據上傳鏈接”,其實都跟“駱駝-列表頁”一樣就行了。鏈接填寫剛才的新百倫列表頁的鏈接。

注意“數據上傳鏈接” 字段:這個是采集器在采集到數據的時候,會把數據往這個鏈接以POST方式推送。因為采集器並不知道我們拿采集到的數據有什麼用,只好把數據交給我們自己處理。我們可以在本地開一個REST服務,apache, tomcat, iis什麼的都可以。

這裡“數據上傳鏈接” 我們填寫 “http://localhost/myphp/index.php”,這裡我們用的是PHP。待會會講一個這個PHP腳本。

如果只是體驗一下采集,“數據上傳鏈接”也可以留空。

 

點擊保存

 

6. 搭建WAMP

 

如果你不需要自己處理采集到的數據,這一步並不是必須的。這裡講的是PHP自定義采集數據處理,其它語言也可以略過。

6.1 安裝wamp 

這個無需多言,也是一直下一步就可以了。

6.2 建立Alias 

 

輸入alias名稱

輸入alias對應的目錄

6.3 index.php腳本

 

 

[php] view plaincopy
  1. <?php  
  2.   
  3.   
  4. // 注意PHP文件要保存為UTF-8無BOM格式  
  5.   
  6.   
  7. // 取得POST過來的數據  
  8. // 因為firespider post時沒有設置content type,所以要用這種方式取post數據,不能用$_POST  
  9. $content = file_get_contents("php://input");  
  10.   
  11.   
  12. // JSON解碼  
  13. $p = json_decode($content);  
  14.   
  15.   
  16. // 後面可以寫你自己的邏輯。這裡只是保存到一個文件中  
  17. $james=fopen("e:/test/json-".$p->urlId.".txt", "w");  
  18.   
  19.   
  20. if(!$james) {  
  21.     echo'file not exist';  
  22.     exit;  
  23. }  
  24.   
  25.   
  26. fwrite($james, $content);  
  27. fclose($james);  



 

 

7. 采集新百倫

任務建立後就可以開始采集了。打開采集器客戶端,在任務標簽頁,選中我們剛才新建的“新百倫”,點擊“執行采集”

 

 

采集開始後,我們就可以在e:/test/ 下的josn-xxx.txt看到采集到的數據啦。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved