程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> 常用的php正則表達式收集詳解

常用的php正則表達式收集詳解

編輯：關於PHP編程

php正則表達式

通用模式

定界符，通常使用 "/"做為定界符開始和結束,也可以使用"#"。
　　什麼時候使用"#"呢?一般是在你的字符串中有很多"/"字符的時候，因為正則的時候這種字符需要轉義，比如uri。
使用"/"定界符的代碼如下.

代碼如下復制代碼 ?$regex = '/^http://([w.]+)/([w]+)/([w]+).html$/i';
$str = 'http://www.youku.com/show_page/id_ABCDEFG.html';
$matches = array();

if(preg_match($regex, $str, $matches)){
var_dump($matches);
}

echo "n";

preg_match中的$matches[0]將包含與整個模式匹配的字符串。

使用"#"定界符的代碼如下.這個時候對"/"就不轉義!

?$regex = '#^http://([w.]+)/([w]+)/([w]+).html$#i';
$str = 'http://www.youku.com/show_page/id_ABCDEFG.html';
$matches = array();

if(preg_match($regex, $str, $matches)){
var_dump($matches);
}

echo "n";

修飾符:用於改變正則表達式的行為。

我們看到的('/^http://([w.]+)/([w]+)/([w]+).html/i')中的最後一個"i"就是修飾符,表示忽略大小寫，還有一個我們經常用到的是"x"表示忽略空格。

貢獻代碼:

?$regex = '/HELLO/';
$str = 'hello word';
$matches = array();

if(preg_match($regex, $str, $matches)){
echo 'No i:Valid Successful!',"n";
}

if(preg_match($regex.'i', $str, $matches)){
echo 'YES i:Valid Successful!',"n";
}

字符域:[w]用方括號擴起來的部分就是字符域。

限定符:如[w]{3,5}或者[w]*或者[w]+這些[w]後面的符號都表示限定符。現介紹具體意義。

{3,5}表示3到5個字符。{3,}超過3個字符，{,5}最多5個，{3}三個字符。

* 表示0到多個

+ 表示1到多個。

脫字符號

> 放在字符域(如:[^w])中表示否定(不包括的意思)——“反向選擇”

> 放在表達式之前，表示以當前這個字符開始。(/^n/i,表示以n開頭)。
注意，我們經常管""叫"跳脫字符"。用於轉義一些特殊符號，如".","/"

界符：正則表達式的形式一般如下：
/love/
其中位於“/”定界符之間的部分就是將要在目標對象中進行匹配的模式。
元字符：就是指那些在正則表達式中具有特殊意義的專用字符，可以用來規定其前導字符（即位於元字符前面的字符）在目標對象中的出現模式。
較為常用的元字符包括： “+”， “*”，以及 “?”。
“+”元字符規定其前導字符必須在目標對象中連續出現一次或多次
“*”元字符規定其前導字符必須在目標對象中出現零次或連續多次，
“?”元字符規定其前導字符必須在目標對象中連續出現零次或一次。
下面，就讓我們來看一下正則表達式元字符的具體應用。
/fo+/
因為上述正則表達式中包含“+”元字符（它前面的“o”是前導字符），表示可以與目標對象中的“fool”, “fo”等在字母f後面連續出現一個或多個字母o的字符串相匹配。
除了元字符之外，用戶還可以精確指定模式在匹配對象中出現的頻率。例如，
/jim{2,6}/
上述正則表達式規定字符m可以在匹配對象中連續出現2-6次，因此，上述正則表達式可以同jimmy或jimmmmmy等字符串相匹配。
其它幾個重要的元字符的使用方式。
s：用於匹配單個空格符，包括tab鍵和換行符；
S：用於匹配除單個空格符之外的所有字符；
d：用於匹配從0到9的數字；
w：用於匹配字母，數字或下劃線字符；
W：用於匹配所有與w不匹配的字符；
. ：用於匹配除換行符之外的所有字符。
（說明：我們可以把s和S以及w和W看作互為逆運算）
下面，我們就通過實例看一下如何在正則表達式中使用上述元字符。
/s+/
上述正則表達式可以用於匹配目標對象中的一個或多個空格字符。
除了我們以上所介紹的元字符之外，正則表達式中還具有另外一種較為獨特的專用字符，即定位符。
定位符：用於規定匹配模式在目標對象中的出現位置。
較為常用的定位符包括： “^”, “$”, “b” 以及 “B”。
“^”定位符規定匹配模式必須出現在目標字符串的開頭
“$”定位符規定匹配模式必須出現在目標對象的結尾
b定位符規定匹配模式必須出現在目標字符串的開頭或結尾的兩個邊界之一
“B”定位符則規定匹配對象必須位於目標字符串的開頭和結尾兩個邊界之內，即匹配對象既不能作為目標字符串的開頭，也不能作為目標字符串的結尾。同樣，我們
也可以把“^”和“$”以及“b”和“B”看作是互為逆運算的兩組定位符。舉例來說：
/^hell/
因為上述正則表達式中包含“^”定位符，所以可以與目標對象中以 “hell”, “hello”或 “hellhound”開頭的字符串相匹配。
/ar$/
因為上述正則表達式中包含“$”定位符，所以可以與目標對象中以 “car”, “bar”或 “ar” 結尾的字符串相匹配。
/bbom/
因為上述正則表達式模式以“b”定位符開頭，所以可以與目標對象中以 “bomb”, 或 “bom”開頭的字符串相匹配。
/manb/
因為上述正則表達式模式以“b”定位符結尾，所以可以與目標對象中以 “human”, “woman”或 “man”結尾的字符串相匹配。
為了能夠方便用戶更加靈活的設定匹配模式，正則表達式允許使用者在匹配模式中指定某一個范圍而不局限於具體的字符。例如：
/[A-Z]/
上述正則表達式將會與從A到Z范圍內任何一個大寫字母相匹配。
/[a-z]/
上述正則表達式將會與從a到z范圍內任何一個小寫字母相匹配。
/[0-9]/
上述正則表達式將會與從0到9范圍內任何一個數字相匹配。
/([a-z][A-Z][0-9])+/
上述正則表達式將會與任何由字母和數字組成的字符串，如 “aB0” 等相匹配。這裡需要提醒用戶注意的一點就是可以在正則表達式中使用 “()” 把字符串組合在一起。
“()”符號：包含的內容必須同時出現在目標對象中。因此，上述正則表達式將無法與諸如 “abc”等的字符串匹配，因為“abc”中的最後一個字符為字母而非數字。
如果我們希望在正則表達式中實現類似編程邏輯中的“或”運算，在多個不同的模式中任選一個進行匹配的話，可以使用管道符： “|”。例如：
/to|too|2/
上述正則表達式將會與目標對象中的 “to”, “too”, 或 “2” 相匹配。
否定符：“[^]”。與我們前文所介紹的定位符 “^” 不同，否定符 “[^]”規定目標對象中不能存在模式中所規定的字符串。例如：
/[^A-C]/
上述字符串將會與目標對象中除A，B，和C之外的任何字符相匹配。一般來說，當“^”出現在 “[]”內時就被視做否定運算符；而當“^”位於“[]”之外，或沒有“[]”時，則應當被視做定位符。
最後，當用戶需要在正則表達式的模式中加入元字符，並查找其匹配對象時，可以使用
轉義符：“”。例如：
/Th*/
上述正則表達式將會與目標對象中的“Th*”而非“The”等相匹配。

實際經驗介紹
還是得說說 ^ 和 $ 他們是分別用來匹配字符串的開始和結束，以下分別舉例說明：
“^The”：開頭一定要有”The”字符串；
“of despair$”：結尾一定要有”of despair” 的字符串；
那麼，
“^abc$”：就是要求以abc開頭和以abc結尾的字符串，實際上是只有abc匹配；
“notice”：匹配包含notice的字符串；
你可以看見如果你沒有用我們提到的兩個字符（最後一個例子），就是說模式（正則表達式）可以出現在被檢驗字符串的任何地方，你沒有把他鎖定到兩邊。
接著，說說 ‘*’ ‘+’ 和 ‘?’
他們用來表示一個字符可以出現的次數或者順序，他們分別表示：
“zero or more”相當於{0,}
“one or more”相當於{1,}
“zero or one.”相當於{0,1}
這裡是一些例子：
“ab*”：和ab{0,}同義，匹配以a開頭，後面可以接0個或者N個b組成的字符串(”a”, “ab”, “abbb”, 等)；
“ab+”：和ab{1,}同義，同上條一樣，但最少要有一個b存在 (”ab” “abbb”等)；
“ab?”：和ab{0,1}同義，可以沒有或者只有一個b；
“a?b+$”：匹配以一個或者0個a再加上一個以上的b結尾的字符串。
要點：’*’ ‘+’ 和 ‘?’ 只管它前面那個字符。
你也可以在大括號裡面限制字符出現的個數，比如：
“ab{2}”: 要求a後面一定要跟兩個b（一個也不能少）(”abb”)；
“ab{2,}”: 要求a後面一定要有兩個或者兩個以上b(如”abb” “abbbb” 等)；
“ab{3,5}”: 要求a後面可以有2－5個b(”abbb”, “abbbb”, or “abbbbb”)。
現在我們把一定幾個字符放到小括號裡，比如：
“a(bc)*”: 匹配 a 後面跟0個或者一個”bc”；
“a(bc){1,5}”: 一個到5個 “bc”；
還有一個字符 ‘|’，相當於OR操作：
“hi|hello”: 匹配含有”hi” 或者 “hello” 的字符串；
“(b|cd)ef”: 匹配含有 “bef” 或者 “cdef”的字符串；
“(a|b)*c”: 匹配含有這樣多個（包括0個）a或b，後面跟一個c的字符串；
一個點(’.’)可以代表所有的單一字符，不包括” ”
如果，要匹配包括” ”在內的所有單個字符，怎麼辦？
用’[ .]’這種模式。
“a.[0-9]”: 一個a加一個字符再加一個0到9的數字；
“^.{3}$”: 三個任意字符結尾。
中括號括住的內容只匹配一個單一的字符
“[ab]”: 匹配單個的 a 或者 b ( 和 “a│b” 一樣)；
“[a-d]”: 匹配’a’ 到’d’的單個字符 (和”a│b│c│d” 還有 “[abcd]”效果一樣)；
一般我們都用[a-zA-Z]來指定字符為一個大小寫英文：
“^[a-zA-Z]”: 匹配以大小寫字母開頭的字符串；
“[0-9]%”: 匹配含有形如 x％的字符串；
“,[a-zA-Z0-9]$”: 匹配以逗號再加一個數字或字母結尾的字符串；
你也可以把你不想要得字符列在中括號裡，你只需要在總括號裡面使用’^’ 作為開頭 “%[^a-zA-Z]%” 匹配含有兩個百分號裡面有一個非字母的字符串。
要點：^用在中括號開頭的時候，就表示排除括號裡的字符。
為了PHP能夠解釋，你必須在這些字符面前後加”，並且將一些字符轉義。
不要忘記在中括號裡面的字符是這條規路的例外—在中括號裡面，所有的特殊字符，包括(”)，都將失去他們的特殊性質 “[*+?{}.]”匹配含有這些字符的字符串：
還有，正如regx的手冊告訴我們：”如果列表裡含有’]’，最好把它作為列表裡的第一個字符(可能跟在’^’後面)。如果含有’-’，最好把它放在最前面或者最後面
， or 或者一個范圍的第二個結束點[a-d-0-9]中間的‘-’將有效。
看了上面的例子，你對{n,m}應該理解了吧。要注意的是，n和m都不能為負整數，而且n總是小於m。這樣，才能最少匹配n次且最多匹配m次。如”p{1,5}”將匹配
“pvpppppp”中的前五個p
下面說說以開頭的
b 書上說他是用來匹配一個單詞邊界，就是…比如’veb’，可以匹配love裡的ve而不匹配very裡有ve
B 正好和上面的b相反。
正則表達式的其他用法
提取字符串
ereg() and eregi() 有一個特性是允許用戶通過正則表達式去提取字符串的一部分(具體用法你可以閱讀手冊)。比如說，我們想從 path/URL 提取文件名，下面的代
碼就是你需要：
ereg(”([^\/]*)$”, $pathOrUrl, $regs);
echo $regs[1];
高級的代換
ereg_replace() 和 eregi_replace()也是非常有用的，假如我們想把所有的間隔負號都替換成逗號：
ereg_replace(”[ t]+”, “,”, trim($str));

以下為引用的內容：

preg_match()和preg_match_all()
preg_quote()
preg_split()
preg_grep()
preg_replace()
函數的具體使用，我們可以通過PHP手冊來找到，下面分享一些平時積累的正則表達式：

匹配action屬性

以下為引用的內容：

代碼如下復制代碼 $str = '';
    $match = '';
    preg_match_all('/s+action="(?!http:)(.*?)"s/', $str, $match);
    print_r($match);

在正則中使用回調函數

以下為引用的內容：

代碼如下復制代碼 /**
   * replace some string by callback function
   *
   */
function callback_replace() {
      $url = 'http://esfang.house.sina.com.cn';
      $str = '';
      $str = preg_replace ( '/(?<=saction=")(?!http:)(.*?)(?="s)/e', 'search($url, \1)', $str );

      echo $str;
}

function search($url, $match){
      return $url . '/' . $match;
}

帶斷言的正則匹配

以下為引用的內容：

代碼如下復制代碼

$match = '';
$str = 'xxxxxx.com.cn bold font
paragraph text

';
   preg_match_all ( '/(?<=<(w{1})>).*(?=</1>)/', $str, $match );
   echo "匹配沒有屬性的HTML標簽中的內容：";
   print_r ( $match );

替換HTML源碼中的地址

以下為引用的內容：

代碼如下復制代碼

$form_html = preg_replace ( '/(?<=saction="|ssrc="|shref=")(?!http:|javascript)(.*?)(?="s)/e', 'add_url($url, '\1')', $form_html );

元字符

在上面的例子中，^ 、d 及 $ 等這些符號，代表了特定的匹配意義，我們稱之為元字符，常用的元字符如下：

元字符說明 . 匹配除換行符意外的任意字符 w 匹配字母或數字或下劃線 s 匹配任意的空白符 d 匹配數字 b 匹配單詞的開始或結束 ^ 匹配字符串的開始 $ 匹配字符串的結束 [x] 匹配x字符，如匹配字符串中的 a、b 和 c 字符 W w的反義，即匹配任意非字母，數字，下劃線和漢字的字符 S s的反義，即匹配任意非空白符的字符 D d的反義，即匹配任意非數字的字符 B b的反義，即不是單詞開頭或結束的位置 [^x] 匹配除了 x 意外的任意字符，如 [^abc] 匹配除了 abc 這幾個字母之外的任意字符