程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> JSP編程 >> 關於JSP >> java匹配中文漢字的正則表達式

java匹配中文漢字的正則表達式

編輯:關於JSP

     

    代碼如下  

    [u4E00-u9FA5]漢字?[uFE30-uFFA0]全角字符

    [u4E00-u9FA5]漢字?[uFE30-uFFA0]全角字符

      匹配中文字符的正則表達式: [u4e00-u9fa5]

      匹配雙字節字符(包括漢字在內):[^x00-xff]

      應用:計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)

    代碼如下   String.prototype.len=function(){return this.replace([^x00-xff]/g,"aa").length;}

      匹配空行的正則表達式:n[s| ]*r

      匹配HTML標記的正則表達式:/<(.*)>.*|<(.*) />/

      匹配首尾空格的正則表達式:(^s*)|(s*$)

      知道它了我們就好解決了

    代碼如下 復制代碼

    public static void regxChinese(){
    // 要匹配的字符串
    String source = "<span title='5 星級酒店' class='dx dx5'>";
    // 將上面要匹配的字符串轉換成小寫
    // source = source.toLowerCase();
    // 匹配的字符串的正則表達式
    String reg_charset = "<span[^>]*?title='([0-9]*[s|S]*[u4E00-u9FA5]*)'[s|S]

    *class='[a-z]*[s|S]*[a-z]*[0-9]*'";

    Pattern p = Pattern.compile(reg_charset);
    Matcher m = p.matcher(source);
    while (m.find()) {
    System.out.println(m.group(1));
    }
    }
    public static void regxChinese(){
    // 要匹配的字符串
    String source = "<span title='5 星級酒店' class='dx dx5'>";
    // 將上面要匹配的字符串轉換成小寫
    // source = source.toLowerCase();
    // 匹配的字符串的正則表達式
    String reg_charset = "<span[^>]*?title='([0-9]*[s|S]*[u4E00-u9FA5]*)'[s|S]

    *class='[a-z]*[s|S]*[a-z]*[0-9]*'";

    Pattern p = Pattern.compile(reg_charset);
    Matcher m = p.matcher(source);
    while (m.find()) {
    System.out.println(m.group(1));
    }
    }

      Java的正則表達式是可以匹配中文字符的,同時,用中文字符來寫表達式也是可以的

    代碼如下 復制代碼

    String reg_charset = "<span[^>]*?title='([0-9]*[s|S]*星級酒店)'[s|S]*class='[a-z]*[s|S]

    *[a-z]*[0-9]*'";

    String reg_charset = "<span[^>]*?title='([0-9]*[s|S]*星級酒店)'[s|S]*class='[a-z]*

    [s|S]*[a-z]*[0-9]*'";

      一些常用的正則匹配規則

      匹配中文字符的正則表達式: [u4e00-u9fa5]

      評注:匹配中文還真是個頭疼的事,有了這個表達式就好辦了

      匹配雙字節字符(包括漢字在內):[^x00-xff]

      評注:可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)

      匹配空白行的正則表達式:ns*r

      評注:可以用來刪除空白行

      匹配HTML標記的正則表達式:<(S*?)[^>]*>.*?|<.*? />

      評注:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對於復雜的嵌套標記依舊無能為力

      匹配首尾空白字符的正則表達式:^s*|s*$

      評注:可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式

      匹配Email地址的正則表達式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*

      評注:表單驗證時很實用

      匹配網址URL的正則表達式:[a-zA-z]+://[^s]*

      評注:網上流傳的版本功能很有限,上面這個基本可以滿足需求

      匹配帳號是否合法(字母開頭,允許5-16字節,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

      評注:表單驗證時很實用

      匹配國內電話號碼:d{3}-d{8}|d{4}-d{7}

      評注:匹配形式如 0511-4405222 或 021-87888822

      匹配騰訊QQ號:[1-9][0-9]{4,}

      評注:騰訊QQ號從10000開始

      匹配中國郵政編碼:[1-9]d{5}(?!d)

      評注:中國郵政編碼為6位數字

      匹配身份證:d{15}|d{18}

      評注:中國的身份證為15位或18位

      匹配ip地址:d+.d+.d+.d+

      評注:提取ip地址時有用

    1. 上一頁:
    2. 下一頁:
    Copyright © 程式師世界 All Rights Reserved