几乎所有已知的 HTML 解析器都实现了 W3C DOM API(JAXP API 的一部分,JAXP) ,并返回一个可供 JAXP API 直接使用的 org.w3c.dom.Document。主要的差异通常可以在所讨论的解析器的特性中找到。大多数解析器在一定程度上对非良好格式的 HTML (“标签汤”)比较宽容,比如 JTidy、 网络超文本标记语言、 泰格汤和 清洁工。您通常使用这种 HTML 解析器来“整理”HTML 源代码(例如,将 HTML 有效的 <br>替换为 XML 有效的 <br />) ,这样您就可以使用 W3C DOM 和 JAXP API“通常的方式”遍历它。