程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> .NET網頁編程 >> 關於.NET >> 正則匹配閉合HTML標簽(支持嵌套)

正則匹配閉合HTML標簽(支持嵌套)

編輯:關於.NET

任何復雜的正則表達式都是由簡單的子表達式組成的,要想寫出復雜的正則來,一方面需要有化繁為簡的功底,另外一方面,我們需要從正則引擎的角度去思考問題。關於正則引擎的原理,推薦《Mastering Regular Expression》中文名叫《精通正則表達式》。挺不錯的一本書。

OK,先確定我們要解決的問題——從一段Html文本中找出特定id的標簽的innerHTML

這裡面最大的難點就是,Html標簽是支持嵌套的,怎麼能夠找到指定標簽相對應的閉合標簽呢?

我們可以這樣想,先匹配最前面的起始標簽,假設是div吧(<div),接著一旦遇到嵌套div,就“壓入堆棧”,後面如果遇到div閉合標簽了,就“彈出堆棧”。如果遇到閉合標簽的時候,堆棧裡面已經沒有東西了,那麼匹配結束,此結束標簽為正確的閉合標簽

我之所以能夠這樣去思考,是因為我了解過正則的特性,我知道正則中的平衡組能夠實現我剛才說的“堆棧”操作。所以,如果我們要編寫復雜正則表達式,需要對正則的一些高級特性至少有所了解,這樣我們思考問題才有個方向。

================================

匹配任意閉合HTML標簽的正則表達式:

<(?<HtmlTag>[\w]+)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

 

如果只想匹配div標簽,可以使用下面的正則表達式:

<(?<HtmlTag>div)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

是的,你可以把div修改成任意你想要匹配的HTML標簽

 

如果想同時匹配多個HTML標簽,可以使用下面的正則表達式:

<(?<HtmlTag>(div|span|h1))[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

你還可以繼續添加更多要匹配的標簽

 

如果想匹配包含ID的標簽,可以使用下面的正則表達式:

<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)footer(?(Quote)\k<Quote>)[^>]*?(/>|>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>)

這個正則匹配任意id為footer的HTML標簽

 

 

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved