程式師世界 >> 編程語言 >> .NET網頁編程 >> ASP.NET >> 關於ASP.NET >> 編碼,charset,亂碼,unicode,utf-8與.net簡單釋義

編碼,charset,亂碼,unicode,utf-8與.net簡單釋義

編輯：關於ASP.NET

很久沒有寫blog了﹐今天下午工作剛好告一段落﹐有點時間﹐就把上周花了很多時間總結出來的一些計算機字符相關的心得寫出來﹐希望能夠幫助當初和我一樣迷茫的人能夠容易理解﹐也希望能夠引出玉來(這麼多廢話﹐還不快開始...)

由於公司使用的是繁體操作系統﹐而我有時習慣在自己家裡的簡體計算機上寫一些程序﹐但是當我用U盤把代碼在兩者之間copy時﹐經常發現文件中文的地方成了亂碼﹐所以就花了些時間到網上查了一下﹐發現有很多關於亂碼問題的討論﹐按自己的方法總結了一下(有不對的地方﹐還希望各位指出):

1.文件分為文本文件和二進制文件﹐不過本質都一樣﹐都是些01。

2.計算機存儲設備存儲的0或1﹐稱為計算機的一個二進制位(bit)。

3.二進制文件的0和1有專門的應用程序來讀﹐所以它們沒有什麼亂不亂碼的問題﹐只要該程序認得就行。(像doc,xls,exe,dll等)

4.文本文件就不一樣了﹐notepad要認識它﹐vs.net要認識它,UE也要認識它...所以它們就要有一個標准。這個標准的原理其實很簡單﹐就是把所有的字符都給它一個序號﹐然後根據這個序號來找字符就可以了。這個東東就是編碼表,也叫字符集(charset)。

5.文本文件存的都是字符﹐如﹕A,?,@,x。很明顯一個bit不能表示﹐剛好計算機的存儲單位--字節(byte)就是多個字節(1個byte=8個bit),因此用byte來表示字符就理所當然了。

6.第一個編碼表--ASCII碼很快產生﹐很簡單﹐就是用一個byte來表示一個字符(最高位置0),總共能存儲128(2^8)個字符。如A用65表示﹐存在計算機中就是01000001(65)﹐為了書寫方便﹐我們一般記作0x41(16進制),97則表示小寫的a,存在計算機中就是01100001(97)﹐記作0x61。?用63表示,記作0x3F。

7.英語國家的大小寫字母加起來才52個字符﹐再加上數字﹐符號和一些特殊字符﹐已經足夠使用。所以ASCII剛開始非常流行(誰叫計算機不是咱中國發明的... )

8.隨著計算機的普及﹐當非英語系的國家開始使用時﹐ASCII已經明顯不能滿足了(總不成天天使用xiao sheng來表示"小生"吧),所以這些國家(地區)就開始制訂自己的標准。

9.中國大陸制訂了簡體漢字的字符集(GB2312)。和英語國家不同﹐我們的漢字遠遠不止128個﹐所以一個byte肯定不能表示完﹐那就多加個byte,16位(65536)總可以了吧。不過這樣雖解決了位數不夠的問題﹐但是原來的英文文件怎麼辦?總不成又全部拿出來改成雙字節吧。幸好﹐居然發現原來的ASCII的第一位居然是0﹐那我們把第1位改成1不就OK了嗎?以後凡看到0開頭的就讀1個字節﹐1開頭的就讀2個字節。(而且128*128表示所有的簡體字也足夠了)

10.因此在GB2312標准中,"小"的序號是0xD0A1,表示成11010000 10100001,而A還是表示成01000001,這就是為什麼簡體操作系統讀ASCII文件不會亂碼﹐而反之則不然的原因。

11.目前來說﹐情況還比較好﹐中國大陸的計算機運行正常。

12.看到中國大陸制訂了一個標准﹐其它國家和地區也不甘示弱﹐紛紛亮出自己的字符集,於是乎什麼BIG5(中國台灣),shift_jis(日本),ks_c_5601-1987(韓國)都閃亮登場﹐一時間百鳥爭鳴,百花齊放。

13.每個國家都想與ASCII保持兼容﹐理所當然﹐後面的字符就完全不一樣了﹐因此﹐同樣的0xD0A1,在GB2312中是"小"字﹐而在BIG5中卻是"苤"字。你想想﹐這樣不亂才怪。

14.到了這時候﹐總有人會想到﹐再這樣繼續下去是肯定不行的﹐於是它們就想到了﹐如果有一個標准﹐能包括所有字符那不就OK了嗎?

15.於是"大哥大"標准就出來了﹐這就是unicode,為了能夠足夠表示世界上的所有字符這樣光榮而又偉大的任務﹐這家伙用了四個字節來表示(2的32次方到底是多少﹐我也懶得算了),這下好了﹐天下太平了﹐再也不會有麻煩了﹐耳根清靜了...(打住﹐你小子這麼這麼羅嗦呀)

15.不過unicode好是好﹐但是畢竟四個字節表示一個字符"浪費"太大了(我那破貓上網容易嗎﹐電信黑呀﹐說好是2M﹐就給我200K...)﹐而且大家"驚奇"地發現﹐居然世界上一些"較強大"的國家的字符剛好集中在前65536位前﹐呵呵﹐結果unicode也分成了unicode-16和unicode-32了﹐自然﹐前者只用兩個字節表示(所以只能表示前65536位喽,歐亞國家大部分字符都OK了﹐什麼﹐你們那個@$Y$%字符沒有﹐呵呵﹐不管我什麼事,找標准協會﹐都是那幫家伙弄的...)