WebMagic 0.7.0 版本发布，Java 爬虫框架 - PHPERZ中文资讯站

发布于 2017-05-29 14:25:27 | 209 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程，程序狗速度看过来！

WebMagic 垂直爬虫

webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。

WebMagic 0.7.0 版本发布了，此次更新重写了HttpClientDownloader，完善了POST等其他Http Method的支持，并重写了代理API，更加简单和便于扩展。

POST支持

新的POST API，支持各种RequestBody #513

Request request = new Request("http://xxx/path");  request.setMethod(HttpConstant.Method.POST);  request.setRequestBody(HttpRequestBody.json("{'id':1}","utf-8"));

移除了老的在request.extra中设置NameValuePair的方式
POST请求不再进行去重 #484

代理支持

新的代理APIProxyProvider，支持自由扩展
默认实现SimpleProxyProvider是一个简单的round-robin实现，可以添加任意个数的代理。

HttpClientDownloader httpClientDownloader = new HttpClientDownloader(); SimpleProxyProvider proxyProvider = SimpleProxyProvider.from(new Proxy("127.0.0.1", 1087), new Proxy("127.0.0.1", 1088));  httpClientDownloader.setProxyProvider(proxyProvider);

移除了Site上关于代理配置的setProxy等，代理设置统一到HttpClientDownloader里。

新的SimpleHttpClient

用作简单的单次下载和解析时，使用SimpleHttpClient可以满足需求

SimpleHttpClient simpleHttpClient = new SimpleHttpClient(); GithubRepo model = simpleHttpClient.get("github.com/code4craft/webmagic",GithubRepo.class);

其他改动

为Page中增加状态码和Http头信息 #406
支持Request级别设置Http Header和Cookie
去掉Site.addStartRequest() , 用Spider.addStartRequest()代替 #494
HttpClientDownloader大幅重构，将Request转换抽象到HttpUriRequestConverter(之前继承HttpClientDownloader的实现可能需要做相应修改) #524
将CycleRetry和statusCode的判断逻辑从Downloader中迁移到Spider中 #527
通过Page.isDownloadSuccess而不是Page对象本身为空来判断是否下载失败
为PageModel增加不发现新URL的功能 #575
为Site增加了disableCookieManagement属性，在不想使用cookie时使用 #577

历史版本 :
WebMagic 0.7.3 版本发布，Java 爬虫框架
WebMagic 0.7.2 版本发布，Java 爬虫框架
WebMagic 0.7.1 版本发布，Java 爬虫框架
WebMagic 0.7.0 版本发布，Java 爬虫框架
WebMagic 0.6.1 版本发布，Java 爬虫框架
WebMagic 0.6.0 版本发布，Java爬虫框架
WebMagic 0.5.3 版本发布，Java爬虫框架

最新网友评论 共有(0)条评论发布评论返回顶部

推荐阅读

终极炫富——2016 年 iOS 开发者收入调查报告

年度大片：Stack Overflow 2017 开发者调查报告发布！

开发者需要大学学位吗？

程序员多大年纪算高龄，届时该何去何从？

2017 年高薪编程语言排行榜，你的语言上榜没？

各编程语言开发者最常使用的按键，中了没?

伤不起的三十岁，干不动的程序员要何去何从？

2016年中国加班最狠IT公司排行

一句话"面试"漫画：黑了苹果、谷歌、三星

拿代码量算 KPI ……跟程序员们来这套？

程序员遇到 Bug 时的 30 个反应，你是哪一种？

2016年收入最高的5个编程语言 Java和C没在前五?

为什么很少见人傻钱多的程序员炫富？

阿里月薪两万是什么体验？

代码缩进时程序员更喜欢空格键还是Tab键？

最新资讯

Python获取系统所有进程PID及进程名称的方法示例

Python简单获取网卡名称及其IP地址的方法【基于psutil模块】

Python实现的根据IP地址计算子网掩码位数功能示例

好的Python培训机构应该具备哪些条件

详解Pytorch 使用Pytorch拟合多项式(多项式回归)

Python加载带有注释的Json文件实例

对python的文件内注释 help注释方法

Python实现判断一行代码是否为注释的方法

Oracle数据库表中字段顺序的修改方法

ASP.NET MVC 4使用PagedList.Mvc分页的实现代码

Oracle实例启动时报错：ORA-32004的解决方法

解读ASP.NET 5 & MVC6系列教程（7）：依赖注入

详解IDEA用maven创建springMVC项目和配置

ASP.NET MVC5网站开发之展示层架构（五）

SpringBoot创建maven多模块项目实战代码

后端技术

前端技术

数据库

热门框架

常用IDE

其他

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved 冀ICP备14009818号版权声明广告服务