程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> C語言 >> C++ >> C++入門知識 >> C++ 實現解析XML TinyXML講解

C++ 實現解析XML TinyXML講解

編輯:C++入門知識

用mingw32-make前修改一下makefile文件,改為如下
# DEBUG can be set to YES to include debugging info, or NO otherwise(不是DEBUG)
DEBUG          := NO

# PROFILE can be set to YES to include profiling info, or NO otherwise
PROFILE        := NO

# TINYXML_USE_STL can be used to turn on STL support. NO, then STL
# will not be used. YES will include the STL files.(使用STL,選擇的話,則可以使用std::string)
TINYXML_USE_STL := YES

一、TinyXml的特點
TinyXml是一個基於DOM模型的、非驗證的輕量級C 解釋器。

1. SAX和DOM
目前XML的解析主要有兩大模型:SAX和DOM。
其中SAX是基於事件的,其基本工作流程是分析XML文檔,當發現了一個新的元素時,產生一個對應事件,並調用相應的用戶處理函數。這種方式占用內存少,速度快,但用戶程序相應得會比較復雜。
而DOM(文檔對象模型),則是在分析時,一次性的將整個XML文檔進行分析,並在內存中形成對應的樹結構,同時,向用戶提供一系列的接口來訪問和編輯該樹結構。這種方式占用內存大,速度往往慢於SAX,但可以給用戶提供一個面向對象的訪問接口,對用戶更為友好。

2. 驗證和非驗證
對 於一個特定的XML文檔而言,其正確性分為兩個層次。首先是其格式應該符合XML的基本格式要求,比如第一行要有聲明,標簽的嵌套層次必須前後一致等等, 符合這些要求的文件,就是一個合格的XML文件,稱作well-formatted。但除此之外,一個XML文檔因其內容的不同還必須在語義上符合相應的 標准,這些標准由相應的DTD文件或者Schema文件來定義,符合了這些定義要求的XML文件,稱作valid。
因此,解析器也分為兩種,一種是驗證的,即會跟據XML文件中的聲明,用相應的DTD文件對XML文件進行校驗,檢查它是否滿足DTD文件的要求。另一種是忽略DTD文件,只要基本格式正確,就可以進行解析。
就我所知,驗證的解析器通常都是比較重量級的。TinyXml不支持驗證,但是體積很小,用在解析格式較為簡單的XML文件,比如配置文件時,特別的合適。

二、 TinyXml的構建和使用
1. 獲取
TinyXml首頁在http://www.grinninglizard.com/tinyxml/index.html,從這裡可以找到最新版本的源代碼,目前的版本是 2.4.3 (截至2006.5.17).

2.構建
TinyXml 在構建時可以選擇是否支持STL,選擇的話,則可以使用std::string,所以通常應在Windows上,TinyXml的源碼包裡提供了VC6的 工程文件,直接用它就可以生成兩個靜該打開這個選項。態庫(帶STL和不帶STL),非常容易。唯一需要注意的是,默認生成的庫是單線程的,如果用在多線 程的項目中,需要改動一下配置,生成相應的多線程庫。
在Unix平台上,TinyXml的源碼包裡只提供了一個Makefile,對於典型 的Linux系統,或裝了gcc和gmake的其他Unix,這個Makefile足夠用了,我在RH9和RHEL4上測試,簡單的make就成功了。需 要注意的有以下幾點:默認的編譯是不支持STL的,可以通過編輯Makefile的TINYXML_USE_STL := NO那一行,把NO改成YES就可以支持STL了;還有默認只生成了一個測試程序,沒有生成任何庫,如果要生成靜態庫的話,可以用ar命令,將生成的幾個 目標文件打包就行了,如果要生成動態庫,則需要加上-fpic參數重新編譯。

3. 使用
構建了相應的庫之後,在 使用了它們的工程中,只要在連接時把他們連上就行了。需要注意的是,如果需要STL支持,在編譯用到了TinyXml的文件時,需要定義一個宏 TIXML_USE_STL,對gcc,可以使用參數-DTIXML_USE_STL,對cl.exe(VC),可以使用參數 /DTIXML_USE_STL,如果嫌麻煩,可以直接定義在 tinyxml.h文件裡。

三、 TinyXml的編程模型

1.類之間的關系
TinyXml實現的時DOM訪問模型,因此提供了一系列的類對應XML文件中的各個節點。主要類間的關系如下圖所示:
TiXmlBase:其它類的基類,是個抽象類
TiXmlNode:表示一個節點,包含節點的一般方法,如訪問自節點、兄弟節點、編輯自身、編輯子節點
TiXmlDocument:表示整個XML文檔,不對應其中某個特定的節點。
TiXmlElement:表示元素節點,可以包含子節點和TiXmlAttribute
TiXmlComment:表示注釋
TiXmlDeclaration:表示聲明
TiXmlText:表示文本節點
TiXmlUnknown:表示未知節點,通常是出錯了
TiXmlAttribute:表示一個元素的屬性
下面是一個簡單的例子:
<?xml version="1.0" encoding="utf-8" ?>
<!-This is only a sample-->
<book>
       <name>TinyXml How To</name>
       <price unit="RMB">20</price>
       <description>Some words…</description>
</ book >
整個文檔,對應TiXmlDocument
book,name,price, description,都對應TiXmlElement
第一行對應一個TiXmlDeclaration
第二行對應一個TiXmlComment
"TinyXml How To"對應一個TiXmlText
unit則是price的一個TiXmlAttribute
這些類與XML文件中的相應元素都有很好的對應關系,因此相信參照TinyXml的文檔,可以很容易的掌握各個方法的使用。

2.  需要注意的問題
各類之間的轉換
由 於各個節點類都從TiXmlNode繼承,在使用時常常需要將TiXmlNode*類型的指針轉換為其派生類的指針,在進行這種轉換時,應該首先使用由 TiXmlNode類提供的一系列轉換函數,如ToElement(void),而不是c 的dynamic_cast
檢查返回值
由於TinyXml是一個非校驗的解析器,因此當解析一個文件時,很可能文件並不包含我們預期的某個節點,在這種情況下,TinyXml將返回空指針。因此,必須要對返回值進行檢查,否則將很容易出現內存訪問的錯誤。
如何重頭建立一個XML文件
先建立一個TiXmlDocument對象,然後,載入某個模板,或者直接插入一個節點作為根節點,接著就可以像打開一個已有的XML文件那樣對它進行操作了。

四、總結
TinyXml 最大的特點就是它很小,可以很方便的靜態連接到程序裡。對於像配置文件、簡單的數據文件這類文件的解析,它很適合。但是由於它是非驗證的,因此需要在程序 裡做許多檢查工做,加重了程序編寫的負擔。因此對於復雜的XML文件,我覺得最好還是用驗證的解析器來處理。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved