程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> curl數據采集系列之單頁面采集函數get_html，curlget_html

curl數據采集系列之單頁面采集函數get_html，curlget_html

編輯：關於PHP編程

curl數據采集系列之單頁面采集函數get_html，curlget_html

在做數據采集時經常要使用到curl+正則的方式采集需要的數據根據自己的工作經驗把自己寫的一些常用自定義函數拿到博客園來分享如果有寫得不恰當的地方請多多指教

這是一個系列沒辦法在一兩天寫完所以一篇一篇的發布

大致大綱：

1.curl數據采集系列之單頁面采集函數get_html

2.curl數據采集系列之多頁面並行采集函數get_htmls

3.curl數據采集系列之正則處理函數get _matches

4.curl數據采集系列之代碼分離

5.curl數據采集系列之並行邏輯控制函數web_spider

、、、

單頁面采集在數據采集過程中是最常用的一個功能有時在服務器訪問限制的情況下只能使用這種采集方式慢但是可以簡單的控制所以寫好一個常用的curl函數調用是很重要的

百度和網易比較熟悉所以拿這兩個網站首頁采集來做例子講解

最簡單的寫法：

1 $url = 'http://www.baidu.com';
2 $ch = curl_init($url);
3 curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
4 curl_setopt($ch,CURLOPT_TIMEOUT,5);
5 $html = curl_exec($ch);
6 if($html !== false){
7     echo $html;
8 }

由於使用頻繁可以利用curl_setopt_array寫成函數的形式：

 1 function get_html($url,$options = array()){
 2     $options[CURLOPT_RETURNTRANSFER] = true;
 3     $options[CURLOPT_TIMEOUT] = 5;
 4     $ch = curl_init($url);
 5     curl_setopt_array($ch,$options);
 6     $html = curl_exec($ch);
 7     curl_close($ch);
 8     if($html === false){
 9         return false;
10     }
11     return $html;
12 }

1 $url = 'http://www.baidu.com';
2 echo get_html($url);

有時候需要傳遞一些特定的參數才能得到正確的頁面如現在要得到網易的頁面：

1 $url = 'http://www.163.com';
2 echo get_html($url);

會看到一片空白什麼也沒有那麼再利用curl_getinfo寫一個函數看看發生了什麼：

 1 function get_info($url,$options = array()){
 2     $options[CURLOPT_RETURNTRANSFER] = true;
 3     $options[CURLOPT_TIMEOUT] = 5;
 4     $ch = curl_init($url);
 5     curl_setopt_array($ch,$options);
 6     $html = curl_exec($ch);
 7     $info = curl_getinfo($ch);
 8     curl_close($ch);
 9     return $info;
10 }
11 $url = 'http://www.163.com';
12 var_dump(get_info($url));

可以看到http_code 302 重定向了這時候就需要傳遞一些參數了：

1 $url = 'http://www.163.com';
2 $options[CURLOPT_FOLLOWLOCATION] = true;
3 echo get_html($url,$options);

會發現怎麼是這樣的一個頁面和我們電腦訪問的不同？？？

看來參數還是不夠不夠服務器判斷我們的客戶端是什麼設備上的就返回了個普通版

看來還要傳送USERAGENT

1 $url = 'http://www.163.com';
2 $options[CURLOPT_FOLLOWLOCATION] = true;
3 $options[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0';
4 echo get_html($url,$options);

OK現在頁面已經出來了這樣基本這個get_html函數基本能實現這樣擴展的功能

當然也有另外的辦法可以實現，當你明確的知道網易的網頁的時候就可以簡單采集了：

1 $url = 'http://www.163.com/index.html';
2 echo get_html($url);

這樣也可以正常的采集

今天先告一段落 byebye!!

上一頁:374&375. Guess Number Higher or Lower 1&2，桑切斯
下一頁:php定時任務，php任務

關於PHP編程

PHP在網頁中動態生成PDF文件詳細教程

本文詳細介紹使用 PHP 動態構建 PDF 文件的整個過程

使用PHP訪問Dropbox

在這篇文章中，我們將探討在Dropbox帳戶訪問文件通

ajax3—php（29），ajax3php29

ajax3—php（29），ajax3php29一、Ajax

PHP中批量生成靜態html(命令行下運行PHP)

眾所周知，大部分網站的新聞資訊或商品信息都是靜態頁面。這樣

8個開發必備的PHP功能，必備php

8個開發必備的PHP功能，必備php　　做過PHP開發的程序

php生成不重復隨機數、數組的4種方法分享，隨機數4種

php生成不重復隨機數、數組的4種方法分享，隨機數4種下面寫

熱門圖文

C語言：在二維數組中，每行每列都按照遞增的順序排序，判斷數組中是否包含一個數。試一下 moving ball 直接修改TWebBrowser顯示內容 Javascript對Silverlight動態控件操作 System.Collections.Generic命名空間 c#-如何獲取接口的實現類 VC中定義一個鏈表類 c#中實現OOP概念

欄目導航

PHP基礎知識 PHP綜合 PHP入門知識關於PHP編程