程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> C語言 >> C >> C語言基礎知識 >> C++中漢字字符串的截取

C++中漢字字符串的截取

編輯:C語言基礎知識

1、
代碼如下:

const char *str = "test測試test";
while(*str)
{
//這裡只需要判斷第一個字節大於0x80就行了,前提是輸入的是合法的GBK字符串
//原因在於,如果第一個字節大於0x80,那麼它必然和後面一個字節一起組成一個漢字
//所以就沒有必要再去判斷後面一個字節了
//再強調一下,前提條件是輸入合法的GBK字符串
if(*str > 0x80)
{
// 漢字,計數器++
str += 2;//是漢字自然就該直接+2了
}
else
{
str++;
}
}

2、

參看下面的字符串轉換函數。
代碼如下:

/**
* 用getBytes(encoding):返回字符串的一個byte數組
* 當b[0]為 63時,應該是轉碼錯誤
* A、不亂碼的漢字字符串:
* 1、encoding用GB2312時,每byte是負數;
* 2、encoding用ISO8859_1時,b[i]全是63。

* B、亂碼的漢字字符串:
* 1、encoding用ISO8859_1時,每byte也是負數;
* 2、encoding用GB2312時,b[i]大部分是63。
* C、英文字符串
* 1、encoding用ISO8859_1和GB2312時,每byte都大於0;
* 總結:給定一個字符串,用getBytes("iso8859_1")
* 1、如果b[i]有63,不用轉碼; A-2
* 2、如果b[i]全大於0,那麼為英文字符串,不用轉碼; B-1
* 3、如果b[i]有小於0的,那麼已經亂碼,要轉碼。 C-1
*/
private static String toGb2312(String str) {
if (str == null) return null;
String retStr = str;
byte b[];
try {
b = str.getBytes("ISO8859_1");

for (int i = 0; i < b.length; i++) {
byte b1 = b[i];
if (b1 == 63)
break; //1
else if (b1 > 0)
continue;//2
else if (b1 < 0) { //不可能為0,0為字符串結束符
retStr = new String(b, "GB2312");
break;
}
}
} catch (UnsupportedEncodingException e) {
// e.printStackTrace();
}
return retStr;
}

3、

代碼如下:

unsigned char *str = "test測試test";
int length;
int i;

length = strlen(str);
for (i = 0; i < length - 1; i++)
{
if ( *str >= 0x81 && *str <= 0xFE
&& *(str + 1) >= 0x40 && *(str + 1) <= 0xFE)
{
// 漢字
}
}

unsignedchar*str="test測試test";//把字符串換成“漢A”試試,結果為2

有人說:“一個GBK漢字要占兩個char空間(二字節),而且第一個字節裡的值是小於0的。可以據此判斷是否為漢字。”
1、為什麼第一個字節的值小於0呢?
2、如果僅通過判斷第一個字節如果小於0,則該字節和下一個字節就組成一個漢字,這種邏輯是否保險?
3、因為還看到有人說,GBK編碼的漢字有高位和低位兩位,第一個是低位吧?需要第一個字節在160-254之間,第二個字節在64-254之間,這樣是不是比2中提到的方法要保險?
4、如果DB中的字符集是SIMPLIFIED CHINESE_CHINA.ZHS16GBK,這個是GBK字符集?GBK兼容GB2312

似乎有些字符集中有些漢字占三個字節

“通過判斷第一個字節如果小於0,則該字節和下一個字節就組成一個漢字”

//GBK漢字內碼范圍
//81-A0 ,40-7E 80-FE
//AA-AF ,40-7E 80-A0
//B0-D6 ,40-7E 80-FE
//D7 ,40-7E 80-F9
//D8-F7 ,40-7E 80-FE
//F8-FE ,40-7E 80-A0
例如://81-A0 ,40-7E 80-FE
表示字符的ascii碼要在129-160,64-126,128-254這三個區間段內

4、
在工作中,遇到要截取字符串在屏幕上顯示出來,因為字符串帶有漢字,如果截取不好,會引起亂碼,寫了下面的函數

在uclinux下與VC6.0中測試可以通過。

view plaincopy to clipboardprint?

代碼如下:

 /*截取字符串

 name :要截取的字符串

 store:要存儲的字符串

 len:要截取的長度

 */

 void split_name( char * name , char * store , int len )
 {

     int i= 0 ;

     char strTemp[L(NAMEL)]={0};

     if ( strlen(name)
     {

         strcpy( store, name );  *name=0;

         return ;

     }

     //從第1個字節開始判斷

     while( i < len )

     {

         if ( name[i]>>7&1 && name[i+1]>>7&1 )       //if ( name[i] < 0 && name[i+1] < 0 )

             i = i + 2 ;

         else

             i = i + 1 ;

     }

     i = i > len ? i-3 :i-1;

     strncpy( store , name , i+1 ); //截取前i+1位

     *(store+i+1)=0;

     strcpy( strTemp , name + i + 1 );

     strcpy( name , strTemp );

 }

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved