这是 Java 中最好的 XML 解析库

我正在 Java 库中搜索解析 XML (复杂的配置和数据文件) ,我谷歌了一下,但找不到除 dom4j 以外的其他东西(看起来他们正在处理 V2)。.我已经看过 commons 配置,但不喜欢它,其他关于 XML 的 apache 项目似乎处于休眠状态。我还没有自己评估 dom4j,只是想知道—— java 有其他(好的)开源 xml 解析库吗?你在 dom4j 的经历如何?

在@Voo 的回答之后,让我再问另一个问题——我应该使用 java 的内置类还是任何第三方库,比如 dom4j。.有什么好处?

225700 次浏览

Nikita 的观点非常好: 不要把成熟和不好混为一谈,XML 并没有发生太大的变化。

JDOM 将是 DOM4J 的另一种选择。

在 Java 中解析 XML 不需要外部库。Java 已经为 SAX 和 DOM 提供了内置的实现。

Java 支持两种开箱即用的 XML 解析方法。

SAXParser

如果希望解析大型 XML 文件和/或不想使用大量内存,可以使用此解析器。

Http://download.oracle.com/javase/6/docs/api/javax/xml/parsers/saxparserfactory.html

例子: http://www.mkyong.com/java/how-to-read-xml-file-in-java-sax-parser/

DOMParser

如果需要执行 XPath 查询或需要提供完整的 DOM,则可以使用此解析器。

Http://download.oracle.com/javase/6/docs/api/javax/xml/parsers/documentbuilderfactory.html

例子: http://www.mkyong.com/java/how-to-read-xml-file-in-java-dom-parser/

实际上 Java 支持4种方法来解析 XML:

DOM Parser/Builder: 整个 XML 结构加载到内存中,您可以使用众所周知的 DOM 方法来处理它。DOM 还允许您使用 Xslt 转换写入文档。 例如:

public static void parse() throws ParserConfigurationException, IOException, SAXException {
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
factory.setValidating(true);
factory.setIgnoringElementContentWhitespace(true);
DocumentBuilder builder = factory.newDocumentBuilder();
File file = new File("test.xml");
Document doc = builder.parse(file);
// Do something with the document here.
}

SAX 解析器: 仅用于读取 XML 文档。Sax 解析器遍历文档并调用用户的回调方法。有文档、元素等的开始/结束方法。它们在 org.xml.sax 中定义。ContentHandler,并且有一个空的 helper 类 DefaultHandler。

public static void parse() throws ParserConfigurationException, SAXException {
SAXParserFactory factory = SAXParserFactory.newInstance();
factory.setValidating(true);
SAXParser saxParser = factory.newSAXParser();
File file = new File("test.xml");
saxParser.parse(file, new ElementHandler());    // specify handler
}

StAx Reader/Writer: 这是一个面向数据流的接口。程序在准备就绪时像游标/迭代器一样请求下一个元素。您还可以使用它创建文档。 阅读文件:

public static void parse() throws XMLStreamException, IOException {
try (FileInputStream fis = new FileInputStream("test.xml")) {
XMLInputFactory xmlInFact = XMLInputFactory.newInstance();
XMLStreamReader reader = xmlInFact.createXMLStreamReader(fis);
while(reader.hasNext()) {
reader.next(); // do something here
}
}
}

撰写文档:

public static void parse() throws XMLStreamException, IOException {
try (FileOutputStream fos = new FileOutputStream("test.xml")){
XMLOutputFactory xmlOutFact = XMLOutputFactory.newInstance();
XMLStreamWriter writer = xmlOutFact.createXMLStreamWriter(fos);
writer.writeStartDocument();
writer.writeStartElement("test");
// write stuff
writer.writeEndElement();
}
}

JAXB: 读取 XML 文档的最新实现: 是 v2中 Java6的一部分。这允许我们从文档序列化 java 对象。使用实现 javax.xml.bind 接口的类读取文档。解组器(您可以从 JAXBContext.newInstance 获得这方面的类)。上下文必须使用所用的类进行初始化,但是您只需要指定根类,并且不必担心静态引用类。 使用注释来指定哪些类应该是元素(@XmlRootElement) ,哪些字段是元素(@XmlElement)或属性(@XmlAttribute,真令人惊讶!)

public static void parse() throws JAXBException, IOException {
try (FileInputStream adrFile = new FileInputStream("test")) {
JAXBContext ctx = JAXBContext.newInstance(RootElementClass.class);
Unmarshaller um = ctx.createUnmarshaller();
RootElementClass rootElement = (RootElementClass) um.unmarshal(adrFile);
}
}

撰写文档:

public static void parse(RootElementClass out) throws IOException, JAXBException {
try (FileOutputStream adrFile = new FileOutputStream("test.xml")) {
JAXBContext ctx = JAXBContext.newInstance(RootElementClass.class);
Marshaller ma = ctx.createMarshaller();
ma.marshal(out, adrFile);
}
}

例子厚颜无耻地抄袭一些旧的讲义幻灯片; -)

编辑: 关于“我应该使用哪种 API?”.这取决于具体情况——并不是所有的 API 都具有您所看到的那样的功能,但是如果您可以控制用于映射 XML 文档的类,那么 JAXB 就是我个人最喜欢的、非常优雅和简单的解决方案(尽管我没有将它用于非常大的文档,但它可能会有点复杂)。SAX 也很容易使用,如果你没有很好的理由去使用它,只要远离 DOM 就行了——在我看来,这是一个又老又笨重的 API。我认为没有任何现代的第三方库具有 STL 所缺少的特别有用的功能,而标准库具有通常的优势,即极好的测试、文档化和稳定性。

XML 是重型的 XML 解析库... 它在几乎所有方面都优于其他的... 这是一篇2013年的论文,分析了 Java 平台上可用的所有 XML 处理框架..。

Http://sdiwc.us/digitlib/journal_paper.php?paper=00000582.pdf

如果您想要一个类似于 DOM 的 API ——也就是说,XML 解析器将文档转换为元素和属性节点树的 API ——那么至少有四个可供选择: DOM 本身、 JDOM、 DOM4J 和 XOM。使用 DOM 的唯一可能的原因是,它被视为一种标准,并由 JDK 提供: 在所有其他方面,其他方面都更优越。我个人更喜欢 XOM,因为它结合了简单性、强大功能和性能。

当然,还有其他类型的处理: 低级解析器接口(SAX 和 StAX)、数据对象绑定接口(JAXB)和高级声明性语言(XSLT、 XQuery、 XPath)。哪种方式最适合您取决于您的项目需求和您的个人品味。

对于那些对使用 JDOM 感兴趣,但是担心 JDOM 已经有一段时间没有更新(特别是没有利用 Java 泛型)的人来说,有一个名为 CoffeeDOM 的分支,它确切地解决了这些方面的问题,并且使 JDOM API 现代化,点击这里阅读更多内容:

Http://cdmckay.org/blog/2011/05/20/introducing-coffeedom-a-jdom-fork-for-java-5/

下载:

Https://github.com/cdmckay/coffeedom