程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> JAVA編程 >> 關於JAVA >> Dom4j格式化轉義字符問題

Dom4j格式化轉義字符問題

編輯:關於JAVA

1、不得不說的XML CDATA部件

在XML文檔中的所有文本都會被解析器解析。

只有在CDATA部件之內的文本會被解析器忽略。

不合法的XML字符必須被替換為相應的實體。

如果在XML文檔中使用類似"<" 的字符, 那麼解析器將會出現錯誤,因為解析器會認為這是一個新 元素的開始。

&lt; < 小於號 &gt; > 大於號 &amp; & 和 &apos; ' 單引號 &quot; " 雙引號

實體必須以符號"&"開頭,以符號";"結尾。
注意: 只有"<" 字符和"&"字符對於XML來說是嚴格禁止使用的。剩下的都是合法的,為了減少 出錯,使用實體是一個好習慣。

CDATA部件
在CDATA內部的所有內容都會被解析器忽略。

如果文本包含了很多的"<"字符和"&"字符——就象程序代碼一樣,那麼最好把他們都放到 CDATA部件中。

一個 CDATA 部件以"<![CDATA[" 標記開始,以"]]>"標記結束:

CDATA注意事項:
CDATA部件之間不能再包含CDATA部件(不能嵌套)。如果 CDATA部件包含了字符"]]>" 或者"<! [CDATA[" ,將很有可能出錯哦。

同樣要注意在字符串"]]>"之間沒有空格或者換行符。

2、Dom4j格式化轉義字符問題

person.xml

<?xml version="1.0" encoding="UTF-8"?>
<person>
         <name>張三</name>
         <addr><![CDATA[經三路<鑫苑>19F]]></addr>
</person>

上面的XML在被Dom4j格式化的時候,自動會被轉義,轉義後的內容如下:

<?xml version="1.0" encoding="GBK"?>
<person>
   <toname>&lt;![CDATA[經三路&lt;鑫苑&gt;19F]]&gt;</toname>
</person>

這樣,顯然不是想要的結果,因為CDATA不需要再轉義了。如何處理該問題,看下面的程序的處理:

import org.dom4j.Document;
import org.dom4j.DocumentHelper;
import org.dom4j.Element;
import org.dom4j.io.OutputFormat;
import org.dom4j.io.XMLWriter;
import java.io.IOException;
import java.io.StringWriter;
import java.util.Date;
/**
* Created by IntelliJ IDEA.
*
* @author leizhimin 2010-7-10 16:03:39
*/
public class Person {
         private String name;
         private String addr;
         public Person(String name, String addr) {
                 this.name = name;
                 this.addr = addr;
         }
         public static void main(String[] args) {
                 Person p = new Person("張三", "經三路<鑫苑 >19F");
                 p.showXml();
         }
         public void showXml() {
                 String xml1, xml2, xml3;
                 Document doc = DocumentHelper.createDocument();
                 doc.setXMLEncoding("GBK");
                 Element root = doc.addElement("person");
                 if (addr != null) 
                         addElement(root, "toname", "<! [CDATA[" + this.addr + "]]>");
                 else
                         addElement(root, "toname",  this.addr);
                 xml1 = doc.asXML(); //默認轉義
                 xml2 = formatXml(doc, "GBK", true); //轉義
                 xml3 = formatXml(doc, "GBK", false); //不轉義
                 System.out.println(xml1);
                 System.out.println("-------------------------");
                 System.out.println(xml2);
                 System.out.println("-------------------------");
                 System.out.println(xml3);
         }
         /**
          * 在指定的元素下添加一個新的子元素
          *
          * @param e         父元素
          * @param name    子元素名
          * @param value 子元素值
          * @return 新加子元素
          */
         public static Element addElement(Element e, String name, Object  value) {
                 Element x = e.addElement(name);
                 if (value == null || "".equals(value.toString ().trim())) {
                         x.setText("");
                 } else if (value instanceof Date) {
                         x.setText(DateToolkit.toISOFormat((Date)  value));
                 } else {
                         x.setText(value.toString());
                 }
                 return x;
         }
         /**
          * 格式化XML文檔 
          *
          * @param document xml文檔
          * @param charset    字符串的編碼
          * @param istrans    是否對屬性和元素值進行轉移
          * @return 格式化後XML字符串
          */
         public static String formatXml(Document document, String charset,  boolean istrans) {
                 OutputFormat format = OutputFormat.createPrettyPrint ();
                 format.setEncoding(charset);
                 StringWriter sw = new StringWriter();
                 XMLWriter xw = new XMLWriter(sw, format);
                 xw.setEscapeText(istrans);
                 try {
                         xw.write(document);
                         xw.flush();
                         xw.close();
                 } catch (IOException e) {
                         System.out.println("格式化XML文檔發生異常 ,請檢查!");
                         e.printStackTrace();
                 }
                 return sw.toString();
         }
}

輸出結果:

<?xml version="1.0" encoding="GBK"?>
<person><toname>&lt;! [CDATA[經三路&lt;鑫苑&gt;19F]] &gt;</toname></person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<person>
   <toname>&lt;![CDATA[經三路&lt;鑫苑&gt;19F]]&gt;</toname>
</person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<person>
   <toname><![CDATA[經三路<鑫苑>19F]]></toname>
</person>

Process finished with exit code 0

可以看出,最後一種輸出是真正想要的結果。

因此,要控制轉義的問題,必須對XML重新格式化,格式化的時候,需要設置:

xw.setEscapeText(false);

出處http://lavasoft.blog.51cto.com/62575/347348

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved