程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> C語言 >> C++ >> C++入門知識 >> c++ 中文分詞介紹

c++ 中文分詞介紹

編輯:C++入門知識

主要參考網站是oschina裡面收錄的內容:   中科院中文分詞 ICTCLAS 這個據說效率挺高,但不是純開源版本,裡面有個文章12年7月1日失效,就是由於授權協議失效,所以要用到這個類庫的時候要小心了,當然你可以購買版權。 還有一個重要的問題是官網打不開。http://www.ictclas.org   協議未知     中文分詞軟件包 LibMMSeg LibMMSeg 是Coreseek.com為 Sphinx 全文搜索引擎設計的中文分詞軟件包,其在GPL協議下發行的中文分詞法,采用Chih-Hao Tsai的MMSEG算法。 LibMMSeg 采用C++開發,同時支持Linux平台和Windows平台,切分速度大約在500K/s(酷睿 2.4G);截至目前版本LibMMSeg沒有為速度做過特殊優化,進一步的提升切分速度仍有空間。   官方網站http://www.coreseek.cn/opensource/mmseg/     簡易中文分詞系統 SCWS 這是一套基於詞頻詞典的機械中文分詞引擎,采用的是自行采集的詞頻詞典,並輔以一定程度上的專有名稱、人名、地名、數字年代等規則集, SCWS 采用純 C 代碼開發,以 Unix-Like OS 為主要平台環境,提供共享函數庫,方便植入各種現有軟件系統。此外它支持 GBK,UTF-8,BIG5 等漢字編碼 效率:准確: 95%, 召回: 91%, 速度: 1.2MB/sec  協議: BSD 許可協議開源發布 最新版本 2013-1-15: SCWS-1.2.1 Released.     中文句法分析器 ctbparser 一個用C++實現的 中文句法分析 工具包,采用的是中文賓州樹庫標准(Chinese Tree Bank),該句法分析工具采用了標准的圖模型算法,即最大生成樹算法(projective Maximum Spanning Tree)。 效率:ctbparser分詞得到95.3% F1值,詞性標注精度94.27%,句法分析精度81%。處理速度(包括分詞、詞性標注、句法分析)的速度是每秒30句,內存占用為270M。(操作系 統:64位CentOS 5,CPU: Intel(R) Xeon(R) E5405, 2.00GHz) 授權協議: LGPL 最新版本:2012-2-3 0.12版本   中文分詞開源版 CRF CRF中文分詞開源版僅僅包含CRF++軟件包中分詞解碼器部分,簡化了CRF++復雜代碼結構,清除了分詞解碼器不需要的代碼,大大提高了分詞解碼器的可讀性和可懂度。 技術支持:http://langiner.blog.51cto.com/  2010-08-20之後沒有更新 授權協議:非開源 最新版本未知   中文分詞庫 NlpBamboo bamboo是一個中文語言處理系統。目前包括中文分詞和詞性標注部分。算法字構詞的分詞方法CRF++。 效率未知 網站:http://code.google.com/p/nlpbamboo/ 授權協議: BSD 最新版本 :2010-10 1.1.1版本,官方說明短期後面不會更新   C語言開源高性能中文分詞器 friso friso中文分詞器friso是使用c語言開發的一個開源中文分詞器,使用流行的mmseg算法實現。 1。目前最高版本:friso 0.1,只支持UTF-8編碼。【源碼無需修改就能在各種平台下編譯使用,加載完20萬的詞條,內存占用穩定為14M。】。 2。mmseg四種過濾算法,分詞准確率達到了98.41%。 3。支持自定義詞庫。在dict文件夾下,可以隨便添加/刪除/更改詞庫和詞庫詞條,並且對詞庫進行了分類。 4。詞庫使用了friso的Java版本jcseg的簡化詞庫。 5。支持中英混合詞的識別。例如:c語言,IC卡。 7。很好的英文支持,電子郵件,網址,小數,分數,百分數。 8。支持阿拉伯數字基本單字單位的識別,例如2012年,5噸,120斤。 9。自動英文圓角/半角,大寫/小寫轉換。 二。分詞速度     測試環境:2.8GHZ/2G/Ubuntu 簡單模式:3.7M/秒 復雜模式:1.8M/秒 授權協議: LGPL 最新版本:2012-12-28日      綜合來看 簡易中文分詞系統 SCWS和C語言開源高性能中文分詞器 friso是在最近更新的,應該最近會有支持。     僅僅是個人理解。 下面是網上的一個人的評論: 但市場上提供免費甚至開源的分詞引擎不多,中科院研發的ictclas30分詞精確度和分詞速度都非常不錯,而且還有詞性標注和自定義添加詞的功能,可惜不開源。另外比較受歡迎的還有libmmseg和SCWS,因此都是開源的,不過經測試libmmseg的分詞精度似乎不高,而SCWS由於使用了大量的遞歸,在生成詞庫的時候經常導致棧溢出(我是用vc2005編譯的),需要自己將遞歸修改為循環,從演示的情況來看,SCWS的分詞精度來算可以。  

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved