发布于 2016-06-07 00:03:09 | 121 次阅读 | 评论: 0 | 来源: 网友投递
Jsoupxpath 使用 xpath 解析 html 的解析器
JsoupXpath 是一款纯Java开发的使用xpath解析html的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath.为了在java里也享受xpath的强大与方便但又苦于找不到一款足够强大的xpath解析器,故开发了JsoupXpath。JsoupXpath的实现逻辑清晰,扩展方便,支持几乎全部常用的xpath语法.
JsoupXPath v0.3.0 发布了,
改进日志如下:
JXDocument中增加public List<JXNode> selN(String xpath)方法,提取结果可继续执行XPath提取
@Test @DataProvider(value = { "//ul[@class='subject-list']/li" }) public void testJXNode(String xpath) throws XpathSyntaxErrorException { System.out.println("current xpath:" + xpath); List<JXNode> jxNodeList = doubanTest.selN(xpath); for (JXNode node : jxNodeList) { if (!node.isText()) { System.out.println(StringUtils.join(node.sel("/div/h2/a/text()"), "")); } } }
完整示例请参见JXDocumentTest
依赖包commons-lang升级到commons-lang3
修复已知Bug,在此感谢@suclogger的Merge Request