程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> .NET網頁編程 >> ASP.NET >> ASP.NET基礎 >> 正則方式的自動小偷抓網程序

正則方式的自動小偷抓網程序

編輯:ASP.NET基礎
有一些瑕疵沒時間細化,只是實現了效果,大家看一看這個正則該怎麼寫好:
URL:http://news.szhome.com/83642.html
內容:
復制代碼 代碼如下:
object></div></div>
</div>

<div class="share"><div class="linkshare" style="right: 0">

這兩個標記之間的代碼。END標記的問題解決了,但是郁悶的是START截取的標記因為第二個DIV和第三個中間有換行,我無語了不知道怎麼處理這個正則。
而且郁悶的是有多處有這種重復型標記,對正則不太熟悉,我的解決方法如下:

復制代碼 代碼如下:
MatchCollection mc = Regex.Matches(ghoPage.Trim(), @"(?<=<div class=['""]txtmsg['""]>)[\s\S]*?(?=<div class=['""]share['""]><div class=)", RegexOptions.CultureInvariant | RegexOptions.IgnoreCase);
foreach (Match mm in mc)
{
sb.Append(mc[0].Value.Substring(1933, mc[0].Value.Length - 1933));
}

我算出截取出來多處兩個FLASH廣告DIV的長度是1933,然後處理字符串截取後得到我想要的文本,這樣做的劣勢就是萬一該站改變了兩個FLASH廣告DIV的長度我獲取的數據就不是完整的呢,有興趣的研究下,看看換行的DIV正則問題怎麼處理。
裡面用到了自己寫的一個BUTTON控件,可以在點擊後禁止重復點擊,然後就是一些判斷,在思路上蠻不錯,可以做到一直抓取,因為不經常用就沒做成WINDOWS服務類型,這樣的程序可以做成WINDOWS服務,把規則寫在INI文件中,抓錄的規則和正則也放在配置文件中,這樣就能實現自動抓錄。

很短的代碼,對這種抓錄有興趣的朋友可以嘗試下。下載
  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved