发布于 2016-01-22 03:02:08 | 334 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

WebMagic 垂直爬虫

webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。


时隔一年半,作者终于回归了。这个版本主要解决之前的一些BUG,后续会慢慢的继续完善功能。

  • 升级Xsoup到0.3.1,支持//div[contains(@id,'te')]语法。

  • #245 升级Jsoup到1.8.3,解决n-th selector二进制不兼容的问题。

  • #139 修复JsonFilePipeline保存路径的问题

  • #144 修复@TargetUrl增加SourceRegion后取不到链接的问题

  • #157 修复FileCacheQueueScheduler中去重偶尔不工作的问题 @zhugw

  • #188 增加重试的间隔时间,默认为1秒 @edwardsbean

  • #193 修复分页功能MultiPagePipeline可能出现的并发问题 edwardsbean

  • #198 修正site.setHttpProxy()不起作用的bug @okuc



历史版本 :
WebMagic 0.7.3 版本发布,Java 爬虫框架
WebMagic 0.7.2 版本发布,Java 爬虫框架
WebMagic 0.7.1 版本发布,Java 爬虫框架
WebMagic 0.7.0 版本发布,Java 爬虫框架
WebMagic 0.6.1 版本发布,Java 爬虫框架
WebMagic 0.6.0 版本发布,Java爬虫框架
WebMagic 0.5.3 版本发布,Java爬虫框架
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务