xml 构造及解析时的非法字符问题

阅读更多

      系统交互会用到xml,如果直接构造xml的字串,很容易出现非法字符,所以一般推荐,使用dom4j 先构造合法的xml obj,然后再转为字串。但实际上,即便如此,如果遇到xml的非法字符,即便构造xml obj成功,最后转的xml 字串也是有问题。

 

      xml的无效字符包含ascii值在32以下的三段:0x00-0x08, 0x0b-0x0c, 0x0e-0x1f。在字串中有这些特殊字符时会出现解析错误。dom4j的Element可以设置这些字符,不幸的是,却无法再解析出来。

 

      解决办法:轮询字串的char数组,找出这些字符扔掉即可。方法如下:

 

public static void main(String[] args) throws Exception{		
		String invalidStr = "测试特殊符号“”";
		String validStr = toValidXmlStr(invalidStr);
		Element e = DocumentHelper.createElement("text");		
		e.setText(validStr);
		System.out.println(validStr);
		System.out.println(DocumentHelper.parseText(e.asXML()).asXML());
		
		
	}
	
	/**
	 * filter the invalid xml characters:
	 * 
    *
  1. 0x00 - 0x08
  2. *
  3. 0x0b - 0x0c
  4. *
  5. 0x0e - 0x1f
  6. *
* @param xmlStr * @return */ private static String toValidXmlStr(String xmlStr){ StringBuilder sbud = new StringBuilder(); for(char c : xmlStr.toCharArray()){ if(!(0x00 < c && c < 0x08 || 0x0b < c && c < 0x0c || 0x0e < c && c < 0x1f)){ sbud.append(c); } } return sbud.toString(); }

 

      如果直接用invalidStr 进行setText(),虽然此处不报错,但是再解析的时候会报 invalid xml character的异常。

你可能感兴趣的:(XML,C,C++,C#)