程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> 網頁抓取信息(php正則表達式、php操作excel)

網頁抓取信息(php正則表達式、php操作excel)

編輯:關於PHP編程

網頁抓取信息(php正則表達式、php操作excel)


1.問題描述

實現對固定網頁上自己需要的信息抓取,以表格形式存儲。我是拿wustoj上的一個排行榜來練習的,地址:wustoj

 

2.思路

網頁自己就簡單學習了一下php,剛好用它來做點事情吧,我的想法是這樣的:

(1)查看網頁源代碼並保存在文件中。

(2)根據需要的信息寫出正則表達式,讀文件,根據正則表達式來提取需要的信息。寫正則表達式的時候最好分組,這樣提取起來就方便了很多。

(3)對excel操作,將提取的信息以excel的形式輸出。

比較好的開源php處理excel類鏈接:點擊打開鏈接

 

3.體會

^是指要是原字符串的開頭,$是指要是原字符串的結尾。
空字符不一定是空格。
用()來分組是好方法,如preg_macth_all(/$pattern/,$subject,matches)。
matches為二維數組,如果沒有_all,則只會匹配第一部分,是一維數組。
$matches[0]保存完整模式的所有匹配。$matches[1]保存第一子組所有匹配,即所有匹配的第一部分。
中文匹配串我用的這個$patt_ch=chr(0x80)."-".chr(0xff)。

 

4.代碼