程式師世界 >> 編程語言 >> C語言 >> C++ >> C++入門知識 >> 全角與半角的轉化，全角半角轉化

全角與半角的轉化，全角半角轉化

編輯：C++入門知識

全角與半角的轉化，全角半角轉化

1.全角與半角的區別

漢字的特點使我們碰到了兩個基本且又非常重要的概念，即全角與半角。形象的說，在使用英文輸入法時，電腦屏幕上，一個英文字符(如a)所占的位置，人們稱其為半角，而一個漢字所占的位置則等於兩個英文字符，故稱其為全角。
英文輸入法下，無論是輸入字母、符號還是數字，始終都只占一個英文字符的位置，即半角。但在中文輸入法下，則會有全角半角兩種選擇，對中文字符來說，這兩種選擇對其沒有影響，它始終都要占兩個英文字符的位置，但對此狀態下輸入的符號、數字以及英文字母來說，就顯得很重要，如以下所示：
china
ｃｈｉｎａ
前者輸入選擇的是半角，後者為全角。在選擇全角後，即便是字母、符號、數字都無一例外地要被當成漢字進行處理，視覺上看，由於它們占兩個英文字符的位置，顯得別扭了許多。

2.全角與半角的轉化

Ansi多字節字體集在中文(漢字、中文符號)下即GBK編碼，英文(英文字母、英文符號)下為ASCII碼，一般來說，Ansi編碼的文本便於程序的處理。對文本中字符串操作前，建議統一使用全角或半角。比如全角的空格“ ”（對應的GBK編碼A1A1），而半角的空格“ ”（對應的ASCII編碼為\x20），如果文本中混合使用，要查找空格位置或按空格分割段落時，顯然兩種空格會帶來不必要的麻煩。文本中的內容可分為以下四類:

分類解釋轉化方法漢字以及中文字符如：“中國”、“好”等漢字和“……”“——”等中文中的特有符號，這些只能是全角，不存在轉化的問題 NULL 英文字母與英文符號指ASCII表中33-126對應的字符，如：!*+012abc{}等。它們有全角和半角兩種形式，例如上述的china與ｃｈｉｎａ半角轉全角：前添加字節A3，原字節最高位置1
全角轉半角：丟棄第一個字節，第二個字節最高位置0 空格 ASCII碼的空格為\x20，GBK編碼的空格為A1A1 和英文字母和英文符號不同，這個要特殊對待控制字符指ASCII表中0-31的字符，用於控制文件格式。如回車換行便對應\x0D\x0A（CR LF），這部分只能是半角，不需轉化 NULL

由此，全角轉半角的程序如下

/*
 *作者：侯凱
 *說明：全角與半角相互轉化
 *日期：2013-6-9
 */
#include <iostream>
#include <fstream>
#include <string>
using std::string;
using namespace std;

const char sbc_high = -93; //全角字符的第一個字節為A3
const char sbc_space = -95; //全角空格為A1A1

//全角轉半角
string SBC2DBC(const string &sbc)
{
    string dbc = "";
    int len = sbc.length();
    for (int i=0; i<len; ++i)
    {
        if (sbc[i] > 0)    //已經是單字節字符，或者是控制字符
        {
            dbc.append(1, sbc[i]);
        }
        else
        {
            if (sbc[i] == sbc_high)    //全角的英文字母或全角英文符號，如！(A3A1)
            {
                dbc.append(1, sbc[i+1]&0x7f);
            }
            else if (sbc[i]==sbc_space && sbc[i+1]==sbc_space)    //單獨處理空格
            {
                dbc.append(1, ' ');
            }
            else //針對漢字以及～……等中文符號
            {
                dbc += sbc.substr(i, 2);
            }
            ++i;
        }
    }
    return dbc;
}

半角轉全角的程序如下

//半角轉全角
string DBC2SBC(const string &dbc)

{
    string sbc = "";
    int len = dbc.length();
    for (int i=0; i<len; ++i)
    {
        if (dbc[i] < 0)    //已經是雙字節字符，或者是漢字及中文符號
        {
            sbc += dbc.substr(i, 2);
            ++i;
        }
        else if (dbc[i] == ' ')    //單獨處理空格
        {
            sbc += "　";
        }
        else
        {
            if (dbc[i]>=33 && dbc[i]<=126)//半角的英文字母或半角英文符號
            {
                sbc.append(1, sbc_high);
                sbc.append(1, dbc[i]|0x80);
            }
            else
            {
                sbc.append(1, dbc[i]);//控制字符
            }
        }
    }
    return sbc;
}

處理一個文本轉化的示例程序如下

//處理txt文本的簡單例子
void ProcessFile(const char* filename)  
{  
    ifstream infile;
    string strLine = "";
    string strResult = "";  
    infile.open(filename);
    if (infile)  
    {  
        while (!infile.eof())
        {  
            getline(infile,strLine);  
            strResult += strLine+"\n";
        }  
    }
    infile.close();

    strResult = SBC2DBC (strResult);//轉化

    ofstream outfile;  
    outfile.open (filename);
    outfile.write (strResult.c_str(), strResult.length());  
    outfile.flush();  
    outfile.close();
}

3.unicode編碼下的轉化

在實際的工作中，可能碰到unicode編碼的文本。在這種情況下，半角與全角的轉化過程與上述方法一致，只需要處理“英文字母與英文符號”和“空格”即可。當然，unicode編碼下，所有字符都用兩個字節表示，如半角的空格為\x0020，全角的空格為\x3000，(unicode編碼詳見：http://www.cnblogs.com/houkai/archive/2013/06/04/3116955.html)，這樣避免了字符的添加或丟棄，處理更為簡單。如需Unicode編碼表，可下載。轉化方法：
a.全角空格為12288，半角空格為32
b.其他字符半角(33-126)與全角(65281-65374)的對應關系是：均相差65248
程序實現比較簡單，以UTF8轉ANSI中的changeTxtEncoding函數為基礎，改寫後示例如下：

//原函數的功能是實現UTF8編碼的szU8字符轉unicode，unicode再轉Ansi
//這裡，在UTF8轉unicode後添加了“全角轉半角程序”部分
char* changeTxtEncoding(char* szU8)
{  
    int wcsLen = ::MultiByteToWideChar(CP_UTF8, NULL, szU8, -1, NULL, 0);  
    wchar_t* wszString = new wchar_t[wcsLen];
    ::MultiByteToWideChar(CP_UTF8, NULL, szU8, -1, wszString, wcsLen);

    //全角轉半角程序
    //wszString是unicode編碼
    for (int i=0; i<wcsLen; i++)
    {
        if(wszString[i]==12288) //空格
        {
            wszString[i] = 32;
        }
        if( (wszString[i]>=65281) && (wszString[i]<=65374) )//其他字符
        {
            wszString[i] -= 65248;
        }
    }

    int ansiLen = ::WideCharToMultiByte(CP_ACP, NULL, wszString, -1, NULL, 0, NULL, NULL);  //wcslen(wszString)
    char* szAnsi = new char[ansiLen];  
    ::WideCharToMultiByte(CP_ACP, NULL, wszString, -1, szAnsi, ansiLen, NULL, NULL); 
    delete[] wszString;
    return szAnsi;  
}