程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> C語言 >> C++ >> 關於C++ >> chardet字符集檢測模塊

chardet字符集檢測模塊

編輯:關於C++

chardet字符集檢測模塊


chardet 字符集檢測模塊

需要安裝

pip install chardet 

可以檢測網頁,也可以檢測字符串

import urllib
import chardet

'''
從網頁的頭部信息可以查看的內容
網頁的大小,編碼等(有時候可能為空)

可以使用chardet來檢測網頁的編碼
'''

url = 'http://baidu.com'

headerInfo = urllib.urlopen(url).info()

# headerInfo.getparam('charset')

context = urllib.urlopen(url)

print chardet.detect(context)

返回的是一個字典,可以通過字典的key拿到對應的值

result = chardet.detect(context)

print result['encoding']

代碼整理

import urllib
import chardet

'''
代碼的封裝
'''

def auto_getCharset(targetUrl):
    context = urllib.urlopen(targetUrl).read()
    result = chardet.detect(context)
    return result['encoding']

if __name__=='__main__':
    urls = ['http://www.csdn.net/','http://www.imooc.com/','http://www.51cto.com/',
            'http://www.mukedaba.com/','http://www.nowcoder.com/']
    for url in urls:
        print url , auto_getCharset(url)

 

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved