程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> .NET網頁編程 >> .NET實例教程 >> 提取HTML代碼中文字的C#函數

提取HTML代碼中文字的C#函數

編輯:.NET實例教程
/// <summary>
  /// 去除Html標記
  /// </summary>
  /// <param name="strHtml">包括Html的源碼 </param>
  /// <returns>已經去除後的文字</returns>
  public static string StripHTML(string strHtml)
  {
  string [] aryReg ={
          @"<script[^>]*?>.*?</script>",

          @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
          @"([\r\n])[\s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(IExcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(\d+);",
          @"-->",
          @"<!--.*\n"
       
        };
  string [] aryRep = {
          "",
          "",
          "",
          "\"",
          "&",
          "<",
          ">",
          " ",
          "\xa1",//chr(161),
          "\xa2",//chr(162),
          "\xa3",//chr(163),
          "\xa9",//chr(169),
          "",
          "\r\n",
          ""
          };
  string newReg =aryReg[0];
  string strOutput=strHtml;
  for(int i = 0;i<aryReg.Length;i++)
  {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
  }
  strOutput.Replace("<","");
  strOutput.Replace(">","");
  strOutput.Replace("\r\n","");

  return strOutput;
  }  
  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved