萌新筆記——C++裡將string類字符串(utf-8編碼)分解成單個字(可中英混輸)。本站提示廣大學習愛好者:(萌新筆記——C++裡將string類字符串(utf-8編碼)分解成單個字(可中英混輸))文章只能為提供參考,不一定能成為您想要的結果。以下是萌新筆記——C++裡將string類字符串(utf-8編碼)分解成單個字(可中英混輸)正文
最近在建詞典,運用Trie字典樹,需求把字符串分解成單個字。由於傳入的字符串中能夠包括中文或許英文,它們的字節數並不相反。一開端天真地以為中文就是兩個字節,於是很happy地直接判別以後地位的字符的ASCII碼能否處於0~127之間,假如是就提取一個字符,否則提取兩個。在測試分字效果的時分,這種辦法出了問題。比方我傳一個“abcde一二三四五”出來,abcde可以正常分解成 a b c d e,然後面的“一二三四五”則成了亂碼。
於是我開啟了谷歌之旅,搜索“如何在C++中將string中的中文分解成單個字”雲雲,搜索到的辦法大多與我之前的辦法相同,把代碼copy上去直接運轉也是會呈現亂碼。我忽然想到,linux下能夠會呈現中文亂碼的緣由之一就是編碼問題,於是我翻開了vim的配置文件,發現我的確是把中文設置成了utf-8。
發現了這點之後,我專門搜索了utf-8,得知它是一種變長編碼,詳細規則如下:
1)關於單字節的符號,字節的第一位設為0,前面7位為這個符號的unicode碼。因而關於英語字母,UTF-8編碼和ASCII碼是相反的。
2)關於n字節的符號(n>1),第一個字節的前n位都設為1,第n+1位設為0,前面字節的前兩位一概設為10。剩下的沒有提及的二進制位,全部為這個符號的unicode碼。
如表:
1字節 0xxxxxxx 2字節 110xxxxx 10xxxxxx 3字節 1110xxxx 10xxxxxx 10xxxxxx 4字節 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 5字節 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 6字節 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
有了這個,思緒就明晰了:首先,我要判別之後一個字是幾個字節的,然後截取相應的字節數。於是有了如下代碼:
1 void Dictionary::splitWord(const string & word, vector<string> & characters)
2 {
3 int num = word.size();
4 int i = 0;
5 while(i < num)
6 {
7 int size;
8 if(word[i] & 0x80)
9 {
10 if(word[i] & 0x20)
11 {
12 if(word[i] & 0x10)
13 {
14 if(word[i] & 0x08)
15 {
16 if(word[i] & 0x04)
17 {
18 size = 6;
19 }else{
20 size = 5;
21 }
22 }else{
23 size = 4;
24 }
25 }else{
26 size = 3;
27 }
28 }else{
29 size = 2;
30 }
31 }else{
32 size = 1;
33 }
34 string subWord;
35 subWord = word.substr(i, size);
36 characters.push_back(subWord);
37 i += size;
38 }
39 }
if之中嵌套if,雖然進程很明晰,但是代碼行數也太多了,於是對其停止修正,失掉如下代碼:
1 void Dictionary::splitWord(const string & word, vector<string> & characters)
2 {
3 int num = word.size();
4 int i = 0;
5 while(i < num)
6 {
7 int size = 1;
8 if(word[i] & 0x80)
9 {
10 char temp = word[i];
11 temp <<= 1;
12 do{
13 temp <<= 1;
14 ++size;
15 }while(temp & 0x80);
16 }
17 string subWord;
18 subWord = word.substr(i, size);
19 characters.push_back(subWord);
20 i += size;
21 }
22 }
少了一半左右。
分解出來的後果是存在vector容器中的,這個可以依據詳細需求停止更改。
最後發現,中文在utf-8編碼中是三個字節的
其實,只需求手動打印出對應string的size,就可以計算出每個字占多少字節了,事先怎樣沒發現呢?