程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> .NET網頁編程 >> C# >> 關於C# >> 如何打造屬於自己的正則表達式

如何打造屬於自己的正則表達式

編輯:關於C#
 

首先需要說明的一點,無論是Winform,還是Webform,都有很成熟的日歷控件,無論從易用性還是可擴展性上看,日期的選擇和校驗還是用日歷控件來實現比較好。
前幾天在CSDN多個版塊看到需要日期正則的帖子,所以整理了這篇文章,和大家一起討論交流,如有遺漏或錯誤的地方,還請大家指正。
日期正則一般是對格式有要求,且數據不是直接由用戶輸入時使用。因應用場景的不同,寫出的正則也不同,復雜程度也自然不同。正則的書寫需要根據具體情況具體分析,一個基本原則就是:只寫合適的,不寫復雜的。
對於日期提取,只要能與非日期區分開,寫最簡單的正則即可,如
/d{4}-/d{2}-/d{2}
如果可以在源字符串中唯一定位yyyy-MM-dd格式的日期,則可用做提取。
對於驗證,如果僅僅是驗證字符組成及格式是沒有多大意義的,還要加入對規則的校驗。由於閏年的存在,使得日期的校驗正則變得比較復雜。
先來考察一下日期的有效范圍以及什麼是閏年。

2 日期的規則
2.1 日期的有效范圍

對於日期的有效范圍,不同的應用場景會有所不同。
MSDN中定義的DateTime對象的有效范圍是:0001-01-01 00:00:00到9999-12-31 23:59:59。
UNIX時間戳的0按照ISO 8601規范為 :1970-01-01T00:00:00Z。
而實際應用中,日期的范圍基本上不會超出DateTime所規定的范圍,所以正則驗證取其中常用的日期范圍即可。

2.2 什麼是閏年

(以下摘自百度百科)
閏年(leap year)是為了彌補因人為歷法規定造成的年度天數與地球實際公轉周期的時間差而設立的。補上時間差的年份為閏年。
地球繞日運行周期為365天5小時48分46秒(合365.24219天),即一回歸年(tropical year)。公歷的平年只有365日,比回歸年短約0.2422 日,每四年累積約一天,把這一天加於2月末(即2月29日),使當年時間長度變為366日,這一年就為閏年。
需要注意的是,現在的公歷是根據羅馬人的“儒略歷”改編而得。由於當時沒有了解到每年要多算出0.0078天的問題,從公元前46年,到16世紀,一共累計多出了10天。為此,當時的教皇格雷果裡十三世,將1582年10月5日人為規定為10月15日。並開始了新閏年規定。即規定公歷年份是整百數的,必須是400的倍數才是閏年,不是400的倍數的就是平年。比如,1700年、1800年和1900年為平年,2000年為閏年。此後,平均每年長度為365.2425天,約4年出現1天的偏差。按照每四年一個閏年計算,平均每年就要多算出0.0078天,經過四百年就會多出大約3天來,因此,每四百年中要減少三個閏年。閏年的計算,歸結起來就是通常說的:四年一閏;百年不閏,四百年再閏。

2.3 日期的格式

根據不同的語言文化,日期的連字符會有所不同,通常有以下幾種格式:
yyyyMMdd
yyyy-MM-dd
yyyy/MM/dd
yyyy.MM.dd

3 日期正則表達式構建
3.1 規則分析

寫復雜正則的一個常用方法,就是先把不相關的需求拆分開,分別寫出對應的正則,然後組合,檢查一下相互的關聯關系以及影響,基本上就可以得出對應的正則。
按閏年的定義可知,日期可以有幾種分類方法。

3.1.1 根據天數是否與年份有關劃分為兩類

與年份無關的一類中,根據每月天數的不同,又可細分為兩類
 1、3、5、7、8、10、12月為1-31日
 4、6、9、11月為1-30日
與年份有關的一類中
 平年2月為1-28日
 閏年2月為1-29日

3.1.2 根據包含日期不同可劃分為四類

 所有年份的所有月份都包含1-28日
 所有年份除2月外都包含29和30日
 所有年份1、3、5、7、8、10、12月都包含31日
 閏年2月包含29日

3.1.3 分類方法選擇

因為日期分類之後的實現,是要通過(exp1|exp2|exp3)這種分支結構來實現的,而分支結構是從左側分支依次向右開始嘗試匹配,當有一個分支匹配成功時,就不再向右嘗試,否則嘗試所有分支後並報告失敗。
分支的多少,每個分支的復雜程度都會影響匹配效率,考慮到被驗證日期概率分布,絕大多數都是落到1-28日內,所以采用第二種分類方法,會有效提高匹配效率。

3.2 正則實現

采用3.1.2節的分類方法,就可以針對每一個規則寫出對應的正則,以下暫按MM-dd格式進行實現。
先考慮與年份無關的前三條規則,年份可統一寫作
(?!0000)[0-9]{4}
下面僅考慮月和日的正則
 包括平年在內的所有年份的月份都包含1-28日
(0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])
 包括平年在內的所有年份除2月外都包含29和30日
(0[13-9]|1[0-2])-(29|30)
 包括平年在內的所有年份1、3、5、7、8、10、12月都包含31日
(0[13578]|1[02])-31)
合起來就是除閏年的2月29日外的其它所有日期
(?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)
接下來考慮閏年的實現
 閏年2月包含29日
這裡的月和日是固定的,就是02-29,只有年是變化的。
可通過以下代碼輸出所有的閏年年份,考察規則
C# code for (int i = 1; i < 10000; i++)
{
if ((i % 4 == 0 && i % 100 != 0) || i % 400 == 0)

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved