程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 更多編程語言 >> 更多關於編程 >> 在Python中使用base64模塊處理字符編碼的教程

在Python中使用base64模塊處理字符編碼的教程

編輯:更多關於編程

       這篇文章主要介紹了在Python中使用base64模塊處理字符編碼的教程,示例代碼基於Python2.x版本,需要的朋友可以參考下

      Base64是一種用64個字符來表示任意二進制數據的方法。

      用記事本打開exe、jpg、pdf這些文件時,我們都會看到一大堆亂碼,因為二進制文件包含很多無法顯示和打印的字符,所以,如果要讓記事本這樣的文本處理軟件能處理二進制數據,就需要一個二進制到字符串的轉換方法。Base64是一種最常見的二進制編碼方法。

      Base64的原理很簡單,首先,准備一個包含64個字符的數組:

      ?

    1 ['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/']

      然後,對二進制數據進行處理,每3個字節一組,一共是3x8=24bit,劃為4組,每組正好6個bit:

    2015428170554476.png (286×141)

      這樣我們得到4個數字作為索引,然後查表,獲得相應的4個字符,就是編碼後的字符串。

      所以,Base64編碼會把3字節的二進制數據編碼為4字節的文本數據,長度增加33%,好處是編碼後的文本數據可以在郵件正文、網頁等直接顯示。

      如果要編碼的二進制數據不是3的倍數,最後會剩下1個或2個字節怎麼辦?Base64用x00字節在末尾補足後,再在編碼的末尾加上1個或2個=號,表示補了多少字節,解碼的時候,會自動去掉。

      Python內置的base64可以直接進行base64的編解碼:

      ?

    1 2 3 4 5 >>> import base64 >>> base64.b64encode('binaryx00string') 'YmluYXJ5AHN0cmluZw==' >>> base64.b64decode('YmluYXJ5AHN0cmluZw==') 'binaryx00string'

      由於標准的Base64編碼後可能出現字符+和/,在URL中就不能直接作為參數,所以又有一種"url safe"的base64編碼,其實就是把字符+和/分別變成-和_:

      ?

    1 2 3 4 5 6 >>> base64.b64encode('ixb7x1dxfbxefxff') 'abcd++//' >>> base64.urlsafe_b64encode('ixb7x1dxfbxefxff') 'abcd--__' >>> base64.urlsafe_b64decode('abcd--__') 'ixb7x1dxfbxefxff'

      還可以自己定義64個字符的排列順序,這樣就可以自定義Base64編碼,不過,通常情況下完全沒有必要。

      Base64是一種通過查表的編碼方法,不能用於加密,即使使用自定義的編碼表也不行。

      Base64適用於小段內容的編碼,比如數字證書簽名、Cookie的內容等。

      由於=字符也可能出現在Base64編碼中,但=用在URL、Cookie裡面會造成歧義,所以,很多Base64編碼後會把=去掉:

      ?

    1 2 3 4 # 標准Base64: 'abcd' -> 'YWJjZA==' # 自動去掉=: 'abcd' -> 'YWJjZA'

      去掉=後怎麼解碼呢?因為Base64是把3個字節變為4個字節,所以,Base64編碼的長度永遠是4的倍數,因此,需要加上=把Base64字符串的長度變為4的倍數,就可以正常解碼了。

      請寫一個能處理去掉=的base64解碼函數:

      ?

    1 2 3 4 5 6 7 8 >>> base64.b64decode('YWJjZA==') 'abcd' >>> base64.b64decode('YWJjZA') Traceback (most recent call last): ... TypeError: Incorrect padding >>> safe_b64decode('YWJjZA') 'abcd'

      小結

      Base64是一種任意二進制到文本字符串的編碼方法,常用於在URL、Cookie、網頁中傳輸少量二進制數據。

    1. 上一頁:
    2. 下一頁:
    Copyright © 程式師世界 All Rights Reserved