程序師世界是廣大編程愛好者互助、分享、學習的平台，程序師世界有你更精彩！


設為首頁	加入收藏

首頁
編程語言: C語言|JAVA編程
 Python編程
網頁編程: ASP編程|PHP編程
 JSP編程
數據庫知識: MYSQL數據庫|SqlServer數據庫
 Oracle數據庫|DB2數據庫

程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> php utf-8轉unicode的函數第1/2頁

php utf-8轉unicode的函數第1/2頁

編輯：關於PHP編程

UTF編碼
UTF-8就是以8位為單元對UCS進行編碼。從UCS-2到UTF-8的編碼方式如下：
UCS-2編碼(16進制)
UTF-8 字節流(二進制)
0000 - 007F
0xxxxxxx
0080 - 07FF
110xxxxx 10xxxxxx
0800 - FFFF
1110xxxx 10xxxxxx 10xxxxxx
　　例如“漢”字的Unicode編碼是6C49。6C49在0800-FFFF之間，所以肯定要用3字節模板了：1110xxxx 10xxxxxx 10xxxxxx。將6C49寫成二進制是：0110 110001 001001，用這個比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。
終於將unicode和utf8互轉搞定。
如果utf-8編碼的字符ch是3個字節。xx yy zz
將xx和1F AND 操作得到 a
將yy和7F AND 操作得到 b
將zz和7F AND 操作得到 c
(64a+b)*64+c = ch(unicode編碼)
echo.php沒什麼。就是幾個函數。
");
//寫入unicode文件
$ucs2data = utf8ToUnicode($data,"little");
$endian = chr(0xFE).chr(0xFF);
$endian = chr(0xFF).chr(0xFE);
$rt = file_put_contents ( "ucs2.txt", $endian.$ucs2data);
//19:32,utf8toUnicode函數ok.
//20:09。發現little endian 和big endian問題。並解決。
//big endian 方式存入的unicode字符串，ue和editplus均不能
//識別。只有notepad正常識別。
$rt = file_put_contents ( "usc2ys_data.txt", $ucs2_ysdata);
//寫入utf8文件
$utf8data = unicodeToUtf8($ucs2data); // 20:52. 將字串轉回utf8碼ok.
$rt = file_put_contents ( "utf8.txt", $utf8data);
echo(urlencode($utf8data));echo("");
$esc = utf8Escape($data);
echot($esc);
$esc = phpEscape($data);
echot($esc);
$unesc = phpUnescape($esc);
echot($unesc);
/**
* 此函數將utf8編碼字串轉為unicode編碼字符串
* 參數 str ,utf8編碼的字符串。
* 參數 order,存放數據格式，是big endian還是little endian，默認的unicode存放次序是little.
* 如："大"的unicode碼是 5927。little方式存放即為：27 59 。big方式則順序不變：59 27.
* little 存放格式文件的開頭均需有FF FE。big 存放方式的文件開頭為 FE FF。否則。將會產生嚴重混亂。
* 本函數只轉換字符，不負責增加頭部。
* iconv轉換過來的字符串是 big endian存放的。
* 返回 ucs2string , 轉換過的字符串。
* 感謝唠叨（xuzuning）
*/
function utf8ToUnicode($str,$order="little")
{
$ucs2string ="";
$n=strlen($str);
for ($i=0;$i0x80) { //110xxxxx 10xxxxxx
$a = (ord($str[$i]) & 0x3F )0x80 && ord($str[$i+2])>0x80) { //1110xxxx 10xxxxxx 10xxxxxx
$a = (ord($str[$i]) & 0x1F)轉為utf8編碼字符串
* 參數 str ,unicode編碼的字符串。
* 參數 order ,unicode字串的存放次序，為big endian還是little endian.
* 返回 utf8string , 轉換過的字符串。
*
*/
function unicodeToUtf8($str,$order="little")
{
$utf8string ="";
$n=strlen($str);
for ($i=0;$i轉回來。
$i++; //兩個字節表示一個unicode字符。
$c = "";
if($val utf8string .= $c;
}
return $utf8string;
} // end func

/*
* 將utf8編碼的字符串編碼為unicode 碼型，等同escape
* 之所以只接受utf8碼，因為只有utf8碼和unicode之間有公式轉換，其他的編碼都得查碼表來轉換。
* 不知道查找utf8碼的正則是否完全正確。迷茫ing
* 雖然調用utf2ucs對每個字符進行碼值計算。效率過低。然而，代碼清晰，要是把那個計算過程嵌入。
* 代碼就不太容易閱讀了。
*/
function utf8Escape($str) {
preg_match_all("/[＼xC0-＼xE0].|[＼xE0-＼xF0]..|[＼x01-＼x7f]+/",$str,$r);
//prt($r);
$ar = $r[0];
foreach($ar as $k=>$v) {
$ord = ord($v[0]);
if( $ordutf8碼
$ar[$k] = "%u".utf2ucs($v);
}
elseif ($ordutf8碼
$ar[$k] = "%u".utf2ucs($v);
}
}//foreach
return join("",$ar);
}
/**
*
* 把utf8編碼字符轉為ucs-2編碼
* 參數 utf8編碼的字符。
* 返回該字符的unicode碼值。知道了碼值，你就能使用chr將字符弄出來了。
*
* 原理：unicode轉為utf-8碼的算法是。頭部固定位或。
該過程的逆向算法就是這個函數了，頭部固定位反位和。
*/
function utf2ucs($str){
$n=strlen($str);
if ($n=3) {
$highCode = ord($str[0]);
$midCode = ord($str[1]);
$lowCode = ord($str[2]);
$a = 0x1F & $highCode;
$b = 0x7F & $midCode;
$c = 0x7F & $lowCode;
$ucsCode = (64*$a + $b)*64 + $c;
}
elseif ($n==2) {
$highCode = ord($str[0]);
$lowCode = ord($str[1]);
$a = 0x3F & $highCode; //0x3F是0xC0的補數
$b = 0x7F & $lowCode; //0x7F是0x80的補數
$ucsCode = 64*$a + $b;
}
elseif($n==1) {
$ucscode = ord($str);
}
return dechex($ucsCode);
}

/*
* 用處：此函數用來逆轉javascript的escape函數編碼後的字符。
* 關鍵的正則查找我不知道有沒有問題.
* 參數：javascript編碼過的字符串。
* 如：unicodeToUtf8("%u5927")= 大
* 2005-12-10
*
*/
function phpUnescape($escstr){
preg_match_all("/%u[0-9A-Za-z]{4}|%.{2}|[0-9a-zA-Z.+-_]+/",$escstr,$matches); //prt($matches);
$ar = &$matches[0];
$c = "";
foreach($ar as $val){
if (substr($val,0,1)!="%") { //如果是字母數字+-_.的ascii碼
$c .=$val;
}
elseif (substr($val,1,1)!="u") { //如果是非字母數字+-_.的ascii碼
$x = hexdec(substr($val,1,2));
$c .=chr($x);
}
else { //如果是大於0xFF的碼
$val = intval(substr($val,2),16);
if($val %u".bin2hex( iconv( 'gbk' ,"UCS-2",$chars[$i].$chars[$i+1] ) );
$i++;
}
}//foreach
return $ar;
}
?>

上一頁:用PHP偽造referer突破網盤禁止外連的代碼
下一頁:php代碼出現錯誤分析詳解第1/2頁

關於PHP編程

PHP實現微信網頁授權開發教程，php授權教程

PHP實現微信網頁授權開發教程，php授權教程微信網頁授權是

億級Web系統搭建——單機到分布式集群，億級web搭建集群

億級Web系統搭建——單機到分布式集群，億級web搭建集群當

簡單的一個php 冒泡排序算法

在我們剛學編程就知道各種排序算法，現在我們再次看看php 冒

74cms 騎士人才系統源碼，74cms騎士人才源碼

74cms 騎士人才系統源碼，74cms騎士人才源碼騎士cm

PHP內核探索之變量（7）- 不平凡的字符串，內核不平凡

PHP內核探索之變量（7）- 不平凡的字符串，內核不平凡切，

WordPress中設置Post Type自定義文章類型的實例教程，wordpress實例教程

WordPress中設置Post Type自定義文章類型的實

相關文章

閱讀排行榜

超實用的PHP代碼片段，手把手教你編程打印出PDF 解析PHP SPL標准庫的用法(遍歷目錄,查找固定條件的文件) 配置Apache2 + PHP5 + MYSQL5 Laravel的throttle中間件失效問題解決方法，laravelthrottle 淺談PHP中foreach/in_array的使用，foreachin_array 搭建流媒體服務器 PHP 高手之路（二） PHP重定向的3種方式 php數組的概述及分類與聲明代碼演示實例介紹PHP的Reflection反射機制，phpreflection

熱門圖文

深入理解goto語句的替代實現方式分析一個php留言板實例詳解（附源碼下載） java中的枚舉類型詳細介紹數據-機房管理系統計費功能如何實現？宏的妙用高質量C++/C編程指南--類的繼承與組合 PHP知識收集 c++-求助0xC0000005: 讀取位置 0x00000004 時發生訪問沖突錯誤

欄目導航

PHP基礎知識 PHP綜合 PHP入門知識關於PHP編程

Copyright © 程式師世界 All Rights Reserved