程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> 如何運用PHP函數preg_match_all測試正則表達式效果

如何運用PHP函數preg_match_all測試正則表達式效果

編輯:關於PHP編程

PHP函數preg_match_all的具體使用方法我們可以在PHP函數preg_match_all實例要求:分別將每一個DIV元素的ID和內容取出,如biuuu,biuuu_2,biuuu_3,php自學網,php自學網2和php自學網3(一些常用的抓站方法就是這樣匹配的)

分析:字符串是一個簡單的HTML元素,每一個DIV元素對應該一個ID和內容,並且是獨立的,首先考慮如何取出一個DIV內的ID值和內容, 如:php自學網,然後匹配其它類似的元素。一個DIV中需要取出兩個值,也就是兩個匹配的表達式,第一個表達式用於匹配ID值(biuuu),第二個表 達式用於匹配ID的內容(php自學網),正則表達式常用的表達式使用小括號,那麼前面的元素將會變成如下形式:

  1. < div 
  2. id="(biuuu)">
  3. (php自學網)
  4. < /div> 
  5. < div id="(表達式1)">
  6. (表達式2)
  7. < /div>  

好,使用如上小括號把需要匹配的區域進行了劃分,接下來就是如何匹配各個表達式內的內容,我們猜想一個ID可能是字母,數字或下劃線,那這就變得簡單了,使用中括號就可以實現,如下:

表達式1:[a-zA-Z0-9_]+ (表示匹配大小寫字母,數字和下劃線)

那如何匹配表達式2,因為ID的內容可以是任意的字符,但是要注意,不能匹配<或>字符,因為如果匹配這兩個字符將會把後面使用的DIV都匹配出來,因此需要排除這兩個字符開始的元素,也就是不匹配以<或>字符,如下:

表達式2:[^<>]+ (表示不匹配<和>字符)

這樣,PHP函數preg_match_all需要匹配的子表達式就實現了,但是還要需要匹配一個的表達式,方法如下:

表達式:/ '"(表達式1)"'>(表達式2)</div>/

注意其中的雙引號"和/需要使用轉義字符轉義,然後把前面兩個表達式放進去,如下:

  1. '"([a-z0-9_]+)"'>/
  2. < div id="([a-z0-9_]+)">
  3. ([^<>]+)
  4. < /div>/   

這樣就實現一個匹配每一個DIV元素ID值和內容的正則表達式,然後使用preg_match_all函數測試如下:

  1. $html = 
  2. '< div id="biuuu">
  3. php自學網
  4. < /div>
  5. < div id="biuuu_2">
  6. php自學網2
  7. < /div>
  8. < div id="biuuu_3">
  9. php自學網3
  10. < /div>';   
  11. preg_match_all('/
  12. < divsiddivsid="([a-z0-9_]+)">
  13. ([^<>]+)
  14. < /div>/',$html,$result);   
  15. var_dump($result);  

PHP函數preg_match_all示例結果:

  1. array(3) {   
  2. [0]=> array(3)   
  3. {   
  4. [0]=> string(30) "
    <div id="biuuu">php自學網</div>"   
  5. [1]=> string(33) "
    <div id="biuuu_2">php自學網2</div>"   
  6. [2]=> string(33) "
    <div id="biuuu_3">php自學網3</div>"   
  7. }   
  8. [1]=> array(3)   
  9. {   
  10. [0]=> string(5) "biuuu"   
  11. [1]=> string(7) "biuuu_2"   
  12. [2]=> string(7) "biuuu_3"   
  13. }   
  14. [2]=> array(3)   
  15. {   
  16. [0]=> string(8) "php自學網"   
  17. [1]=> string(9) "php自學網2"   
  18. [2]=> string(9) "php自學網3"   
  19. }   
  20. }  

共有三個表達式,分別顯示每一個表達式匹配的值,並以數組的形式存儲,這樣就把每一個DIV元素的ID和內容取出。使用正則表達式最主要還是要知道需要什麼,然後跟椐需要進行匹配,並且思路清晰,並適當的借助PHP函數preg_match_all進行輸出調試,非常方便。


  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved