程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> 巧妙運用PHP函數實現采集器

巧妙運用PHP函數實現采集器

編輯：關於PHP編程

PHP經過長時間的發展，很多用戶都很了解PHP了，我們現在可以利用PHP函數實現采集器程序。何為采集器，通常又叫小偷程序，主要是用來抓取別人網頁內容的。關於采集器的制作，其實並不難，就是遠程打開要采集的網頁，然後用正則表達式將需要的內容匹配出來，只要稍微有點正則表達式的基礎，都能做出自己的采集器來的。

前幾天做了個小說連載的程序，因為怕更新麻煩，順帶就寫了個采集器，采集八路中文網的，功能比較簡單，不能自定義規則，不過大概思路都在裡面了，自定義規則可以自己來擴展。用php來做采集器主要用到兩個PHP函數：file_get_contents()和preg_match_all()，前一個是遠程讀取網頁內容的，不過只在php5以上的版本才能用，後一個是正則函數，用來提取需要的內容的。面就一步一步來講功能實現。因為是采集小說，所以首先要將書名、作者、類型這三個提取出來，別的信息可根據需要提取。

這樣還不夠，還需要一個切取PHP函數：

function cut($string,$start,$end){     
$message = explode($start,$string);     
$message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內容，$start為開始的地方，$end為結束的地方。取出分類號：     
 
$start = "Html/Book/";     
$end    
= "List.shtm";     
$typeid = cut($typeid[0][0],$start,$end);     
$typeid = explode("/",$typeid);[/php]     
 
這樣，$typeid[0]就是我們要找的分類號了。方法如下：     
 
$ustart = """;     
$uend    
= """;     
//t表示title的縮寫     
$tstart = ">";     
$tend    
= "<";     
//取路徑,例如:123.shtm,2342.shtm,233.shtm     
preg_match_all("/"[0-9]{1,}.(shtm)"/is",$chapterurl,$url);     
//取標題,例如:第一章 九世善人     
preg_match_all("/<a href="[0-9]{1,}.shtm"(.*?)</a>/is",$file,$title);     
$countcountcount = count($url[0]);     
for($i=0;$i<=$count;$i++)     
{     
$u = cut($url[0][$i],$ustart,$uend);     
$t = cut($title[0][$i],$tstart,$tend);     
$array[$u] = $t;     
}