程式師世界 >> 編程語言 >> C語言 >> 關於C語言 >> C語言之霍夫曼編碼學習

C語言之霍夫曼編碼學習

編輯：關於C語言

C語言之霍夫曼編碼學習

?
1，霍夫曼編碼描述
哈夫曼樹─即最優二叉樹，帶權路徑長度最小的二叉樹，經常應用於數據壓縮。在計算機信息處理中,“哈夫曼編碼”是一種一致性編碼法（又稱“熵編碼法”），用於數據的無損耗壓縮。這一術語是指使用一張特殊的編碼表將源字符（例如某文件中的一個符號）進行編碼。這張編碼表的特殊之處在於，它是根據每一個源字符出現的估算概率而建立起來的（出現概率高的字符使用較短的編碼，反之出現概率低的則使用較長的編碼，這便使編碼之後的字符串的平均期望長度降低，從而達到無損壓縮數據的目的）。這種方法是由David.A.Huffman發展起來的。例如，在英文中，e的出現概率很高，而z的出現概率則最低。當利用哈夫曼編碼對一篇英文進行壓縮時，e極有可能用一個位(bit)來表示，而z則可能花去25個位（不是26）。用普通的表示方法時，每個英文字母均占用一個字節（byte），即8個位。二者相比，e使用了一般編碼的1/8的長度，z則使用了3倍多。若能實現對於英文中各個字母出現概率的較准確的估算，就可以大幅度提高無損壓縮的比例。

2，問題描述
霍夫曼編碼前首先要統計每個字的字頻，即出現次數，例如：

1、將所有字母出現的次數以從小到大的順序排序，如上圖

2、每個字母都代表一個終端節點（葉節點），比較F.O.R.G.E.T五個字母中每個字母的出現頻率，將最小的兩個字母頻率相加合成一個新的節點。如上圖所示，發現F與O的頻率最小，故相加2+3=5，將F、O組成一個樹，F為左節點，O為右節點，（FO）為根節點，每個節點的取值為其出現頻率（FO的出現頻率為5）

3、比較5.R.G.E.T，發現R與G的頻率最小，故相加4+4=8，將RG組成一個新的節點

4、比較5.8.E.T，發現5與E的頻率最小，故相加5+5=10，因此將FO作為左節點，E作為右節點，FOE作為根節點

5、比較8.10.T，發現8與T的頻率最小，故相加8+7=15，將RG作為左節點，T作為右節點，RGT作為根節點

6、最後剩10.15，沒有可以比較的對象，相加10+15=25，FOE作為左節點，RGT作為右節點

根節點不取值，每個左子節點取值0，右子節點取值1，將每個字母從根節點開始遍歷，沿途的取值組成編碼：

首先選擇一個文本，統計每個字符出現的次數，組成以下數組：
typedef struct FrequencyTreeNode {
int freq;
char c;
struct FrequencyTreeNode *left;
struct FrequencyTreeNode *right;
} FrequencyTreeNodeStruct, *pFrequencyTreeNodeStruct;

然後將獲得的數組frequencies進行排序，按照freq由小到大的順序組成一個二叉查找樹，FrequencyTreeNodeStruct，從二叉查找樹中找到最小的節點，從樹中刪除，再取最小的節點，兩個子節點，組成一個新的樹，根節點c為0，freq為兩個子節點的和，加入frequencies中，並排序，重復該步驟，一直到frequencies中只有一個節點，則該節點為Huffman coding tree的根節點

以short類型按照前述的規則為每個字符編碼，爾後將文本翻譯為Huffman coding，再通過Huffman coding tree進行解碼，驗證編碼的正確性。

3，代碼實現