程式師世界 >> 編程語言 >> .NET網頁編程 >> C# >> C#入門知識 >> C#抓取和分析網頁的類

C#抓取和分析網頁的類

編輯：C#入門知識

抓取和分析網頁的類。

主要功能有：

1、提取網頁的純文本，去所有html標簽和javascript代碼

2、提取網頁的鏈接，包括href和frame及iframe

3、提取網頁的title等(其它的標簽可依此類推，正則是一樣的)

4、可以實現簡單的表單提交及cookie保存

/*
* Author:Sunjoy at CCNU
* 如果您改進了這個類請發一份代碼給我(ccnusjy 在gmail.com)
*/

using System;
using System.Data;
using System.Configuration;
using System.Net;
using System.IO;
using System.Text;
using System.Collections.Generic;
using System.Text.RegularExpressions;
using System.Threading;
using System.Web;
/// <summary>
/// 網頁類
/// </summary>
public class WebPage
{

    #region 私有成員
    private Uri m_uri;   //網址
    private List<Link> m_links;    //此網頁上的鏈接
    private string m_title;        //此網頁的標題
    private string m_html;         //此網頁的HTML代碼
    private string m_outstr;       //此網頁可輸出的純文本
    private bool m_good;           //此網頁是否可用
    private int m_pagesize;       //此網頁的大小
    private static Dictionary<string, CookieContainer> webcookies = new Dictionary<string, CookieContainer>();//存放所有網頁的Cookie
    private string m_post; //此網頁的登陸頁需要的POST數據
    private string m_loginurl; //此網頁的登陸頁
    #endregion

    #region 私有方法
    /// <summary>
    /// 這私有方法從網頁的HTML代碼中分析出鏈接信息
    /// </summary>
    /// <returns>List<Link></returns>
    private List<Link> getLinks()
    {
        if (m_links.Count == 0)
        {
            Regex[] regex = new Regex[2];
            regex[0] = new Regex("(?m)<a[^><]+href=("|)?(?<url>([^>"\s)])+)("|)?[^>]*>(?<text>(\w|\W)*?)</", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            regex[1] = new Regex("<[i]*frame[^><]+src=("|)?(?<url>([^>"\s)])+)("|)?[^>]*>", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            for (int i = 0; i < 2; i++)
            {
                Match match = regex[i].Match(m_html);
                while (match.Success)
                {
                    try
                    {
                        string url = new Uri(m_uri, match.Groups["url"].Value).AbsoluteUri;
                        string text = "";
                        if (i == 0) text = new Regex("(<[^>]+>)|(\s)|( )|&|"", RegexOptions.Multiline | RegexOptions.IgnoreCase).Replace(match.Groups["text"].Value, "");
                        Link link = new Link(url, text);
                        m_links.Add(link);
                    }
                    catch(Exception ex){Console.WriteLine(ex.Message); };
                    match = match.NextMatch();
                }
            }
        }
        return m_links;
    }

    /// <summary>
    /// 此私有方法從一段HTML文本中提取出一定字數的純文本
    /// </summary>
    /// <param name="instr">HTML代碼</param>
    /// <param name="firstN">提取從頭數多少個字</param>
    /// <param name="withLink">是否要鏈接裡面的字</param>
    /// <returns>純文本</re

上一頁:.net 調用 FlashPaper 實現文檔轉換為SWF
下一頁:雅虎公司C#筆試題及參考答案

C#入門知識

 C# winForm程序開機啟動和托盤顯示
這段時間一直在學習C#，看了書然後又

 C#代碼啟用事務鎖Transaction進行一系列提交回滾操作，
C#代碼啟用事務鎖Transaction進行一系列提交回滾操

 .NET4.5新特性async和await修飾符實現異步編程，asyncawait
.NET4.5新特性async和await修飾符實現異步編程

 說說委托那些事兒，說說委托事兒
說說委托那些事兒，說說委托事兒挖一挖委托那些事兒,匿名方法,

C# ref、out、params與值類型參數修飾符，
C# ref、out、params與值類型參數修飾符，1.值

 C#項目代碼規范，
C#項目代碼規范， C#項目代碼規范前言

相關文章

C#委托異步調用示例代碼
c#的object,new操作符及類型轉換
C#如何通過NPOI操作Excel
c# Enumerable中Aggregate和Join的使用
【讀書筆記】C#高級編程第十一章 LINQ，
C#基礎學習總結，
C# 超高速高性能寫日志代碼開源，
SVG格式轉Visio的vsd格式方法，附帶C#動態調用Office的Com組件方法，
C#三大特性之封裝、繼承、多態，
白話C#語法新特性之元組，

閱讀排行榜

C# 系統應用之清除Cookies、IE臨時文件、歷史記錄用T4 Template生成代碼，t4template生成 C#關於類抽象類和接口之間的關系（Abstract）(Interface) C# 語言標准--1.4 自動內存管理 C# 關鍵字params的用法以及C# ref與out區別 C# 軟件配置， const 和 readonly 修飾符的用法，constreadonly c#中的泛型委托(@WhiteTaken)，領域Command，command cookie存儲對象信息，cookie存儲對象 WinCE的C#程序中獲取當前應用程序的路徑

熱門圖文

ASP.NET數據庫編程旁注-網站小助手旭方修改免殺asp版《Programming WPF》翻譯第8章 4.關鍵幀動畫 linux下yum安裝PHP APC與使用實例 Emit學習(2)，emit學習 php zend 相對路徑問題 php實現發送微信模板消息的方法 C# 去除數組重復元素的簡單方法

欄目導航

C#基礎知識 C#入門知識關於C#