发布于 2017-06-04 11:56:21 | 164 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

WebMagic 垂直爬虫

webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。


此次更新包含几个比较大的Bugfix,以及一些遗留问题的改进。

  • 修复0.7.0引入的RedisScheduler无法使用的bug。#583

  • 注解模式的JsonPath默认会指定source为RawText,不再会出现自动为头尾加了<html>标签导致无法解析的情况。#589

  • RegexSelector之前版本默认匹配group1,并通过对无捕获组的正则头尾加括号的形式来统一抽取内容。在0.7.1版本改为不再改变正则,而是通过匹配group0还是group1来实现匹配,见#559。新做法可以减少一些特殊用法的出错几率,例如零宽断言(#556)。

  • 重构了ObjectFormatter部分,修复了ObjectFormatter无法初始化参数的bug。 #570



历史版本 :
WebMagic 0.7.3 版本发布,Java 爬虫框架
WebMagic 0.7.2 版本发布,Java 爬虫框架
WebMagic 0.7.1 版本发布,Java 爬虫框架
WebMagic 0.7.0 版本发布,Java 爬虫框架
WebMagic 0.6.1 版本发布,Java 爬虫框架
WebMagic 0.6.0 版本发布,Java爬虫框架
WebMagic 0.5.3 版本发布,Java爬虫框架
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务