程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> C語言 >> 關於C語言 >> Chinese text processing FAQ 漢語文本處理常見問題及解答

Chinese text processing FAQ 漢語文本處理常見問題及解答

編輯:關於C語言
 

From Corpus4u KnowledgeBase


Jump to: navigation, search

This FAQ is prepared by Hongying Tao.
•分詞和漢字之間加空格是一回事嗎?
code兩者不盡相同。分詞是以語言的詞為單位,漢字之間加空格是以書寫符號漢字為單位。
例如:北京是中國的首都。
分詞:北京 是 中國 的 首都 。
漢字之間加空格:北 京 是 中 國 的 首 都 。



•哪些軟件可以自動分詞?

a) 中科院計算所漢語詞法分析系統ICTCLAS
b) Chinese Annotation Tool可在線處理簡體漢語文本 Perl 版本
c) 海量智能分詞研究版
d) CSW Ver 3.18 中文智能分詞, 英文名稱:Chinese Split Word 網上演示 軟件下載
e) ChineseTA™


•哪些軟件可以自動作編碼轉換(GB/BIG5/UTF-8/UNICODE=UTF-16)?

a) Multilingual Corpus Tool by Scott Piao, 成批轉換
b) WordSmith Tools 4, GB/BIG5 -> UNICODE (UTF-16) 成批轉換
c) 南極星 NJ Star 文本轉換器, 單個轉換
d) Chinese Annotation Tool 可在線處理簡體漢語 文本, 單個轉換 Perl版本
e) MS Word/Notepad, 單個轉換


•哪些軟件可以把漢字文本自動轉成漢語拼音文本?

a) 南極星 NJ Star 文本轉換器, 單個轉換
b) Chinese Annotation Tool 可在線處理簡體漢語文本, 單個轉換 Perl 版本
c) MS Word (Asian Language Layout), 單個轉換


•哪些軟件可以把MS Word文件自動成批轉換成ASCII純文本(.txt)?

a) MS Word“轉換向導” 模板 (Batch Conversion Wizard.)
b) WordSmith Tools 4, Text Converter.


•哪些軟件可以把多個純文本(.txt)文件合並成一個大文件?

a) 文本文件合並器
b) WordSmith Tools 4, File Utilities.


•哪些軟件可以把一個大純文本(.txt)文件分割成多個文件?

WordSmith Tools 4, File Utilities.


•哪些軟件可以把HTML文件自動成批轉換成ASCII純文本(.txt)?

HTML2TXT


•如何利用MS Word輔助加碼 (mark up, tagging)?


•如何利用Excel計算各類語詞共現數據(T-Score, MI, Z-score)?


•哪些軟件可以進行關鍵詞索引(KWIC concordancing)檢索?

經過“分詞”處理的漢語純文本文檔可以借助常見的索引工具(concordancer)進行檢索。其他的方法有WordConcord. 經過“分字”處理的漢語純文本文檔也可以借助常見的索引工具進行檢索,但效果稍差,因為沒有詞的單位為依據。沒有經過“分詞”和“分字”處理的漢語文檔在進行關鍵詞索引時要麼常常出錯,要麼根本無法進行。


•有沒有不用分詞處理便可以進行漢語關鍵詞(KWIC concordancing)檢索的軟件?

目前見到的不用分詞處理便可以進行漢語關鍵詞檢索的軟件主要是兩種:PowerGREP 和 ConcApp北京語言文化大學開發的檢索工具。


•現代漢語通用漢語生語料語言學屬性檢索統計系統(Chinese Corpus Retriever for Linguistic Attributes)CCRL V1.0

CCRL是國內外第一個可以對漢語生語料進行語言學屬性檢索的軟件,可為語言學研究和語言教學提供有力支持。其特點是: 1、直接檢索任何漢語生語料。 2、可進行字串、詞串、語言學屬性檢索,也可以混和檢索。 3、檢索軟件同詞庫、詞的屬性體系、詞庫中詞的屬性標注皆相互獨立。即用戶可以創建自己的詞庫、詞的屬性體系,自己在詞庫中進行詞的屬性標注, 該軟件將使用這些數據把用戶選定的生語料加工成索引並進行檢索。 4、檢索方式靈活,檢索快速准確,檢索結果可按上下文排序。 5、自動進行任何漢語文本的字頻、詞頻統計,詞頻統計中包括人名、地名、機構明、數字等未登錄詞的統計。


•What kind of program can we rely on for Chinese ngrams?

AntConc (version 3.1 or above).


•A Corpus Worker's Toolkit

A Corpus Worker's Toolkit (ACWT) is a collection of NoteTab clips and Perl scripts for Chinese and English text processing. They can do some quick and dirty corpus/discourse linguistic work for those who can otherwise not afford sophisticated yet expensive commercial software programs. Most of these tools function like macros in word processing programs, but they can do much more and work in a simple text processing environment.

 
  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved