发布于 2017-07-31 02:56:49 | 148 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

WebMagic 垂直爬虫

webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。


WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。

本次更新增加了Downloader模块的一些功能。

  • #609 修复HttpRequestBody没有默认构造函数导致无法反序列化的bug。

  • #631 HttpRequestBody的静态构造函数不再抛出UnsupportedEncodingException受检异常。

  • #571 Page对象增加bytes属性,用于获取二进制数据。下载纯二进制页面时,请设置request.setBinarayContent(true),这样对于二进制内容不会尝试转换为String,减小开销。

  • #629 在HttpUriRequestConverter中会自动对一些导致URI异常的字符进行转移或过滤。

  • #610 自动识别编码时,可以识别Content-Type中charset为大写的情况。

  • #627 支持为Request单独设置页面编码,兼容同一站点多种编码方式的情况。

  • #613 Page对象增加charset属性,其值为request/site中设置的charset,或者为自动检测的charset(未定义时)。

  • #606 升级jsonpath到2.4.0

  • #608 升级jsoup到1.10.3



历史版本 :
WebMagic 0.7.3 版本发布,Java 爬虫框架
WebMagic 0.7.2 版本发布,Java 爬虫框架
WebMagic 0.7.1 版本发布,Java 爬虫框架
WebMagic 0.7.0 版本发布,Java 爬虫框架
WebMagic 0.6.1 版本发布,Java 爬虫框架
WebMagic 0.6.0 版本发布,Java爬虫框架
WebMagic 0.5.3 版本发布,Java爬虫框架
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务