发布于 2016-01-22 03:02:08 | 334 次阅读 | 评论: 0 | 来源: 网友投递
WebMagic 垂直爬虫
webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
时隔一年半,作者终于回归了。这个版本主要解决之前的一些BUG,后续会慢慢的继续完善功能。
升级Xsoup到0.3.1,支持//div[contains(@id,'te')]语法。
#245 升级Jsoup到1.8.3,解决n-th selector二进制不兼容的问题。
#139 修复JsonFilePipeline保存路径的问题
#144 修复@TargetUrl增加SourceRegion后取不到链接的问题
#188 增加重试的间隔时间,默认为1秒 @edwardsbean
#193 修复分页功能MultiPagePipeline可能出现的并发问题 edwardsbean