发布于 2017-06-04 11:56:21 | 164 次阅读 | 评论: 0 | 来源: 网友投递
WebMagic 垂直爬虫
webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
此次更新包含几个比较大的Bugfix,以及一些遗留问题的改进。
修复0.7.0引入的RedisScheduler无法使用的bug。#583
注解模式的JsonPath默认会指定source为RawText,不再会出现自动为头尾加了<html>标签导致无法解析的情况。#589
RegexSelector之前版本默认匹配group1,并通过对无捕获组的正则头尾加括号的形式来统一抽取内容。在0.7.1版本改为不再改变正则,而是通过匹配group0还是group1来实现匹配,见#559。新做法可以减少一些特殊用法的出错几率,例如零宽断言(#556)。
重构了ObjectFormatter部分,修复了ObjectFormatter无法初始化参数的bug。 #570