WebMagic 垂直爬虫

WebMagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。

以下是爬取oschina博客的一段代码:

Spider.create(new SimplePageProcessor("HTTP://my.oschina.NET/",
"http://my.oschina.net/*/blog/*")).thread(5).run();

webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookIE等功能。

webmagic包含强大的页面抽取功能,开发者可以便捷的使用CSS selecTor、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。例如:

String exTractResult = Html.create(html).$("div.body")
.xpath("//a/@href").regex(".*blog.*").toString();

webmagic也可以很方便的作为一个模块,嵌入Java项目中运行。

webmagic的使用文档:http://webmagic.io/docs/

WebMagic 0.7.3 版本发布,Java 爬虫框架
WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。本次更新增加了Downloader模块的一些功能。#609 修复HttpRequestBody没有默认构造函数导致无法反序列化的bug。#631 HttpRequestBody的静态构造函数不再抛出UnsupportedEncodingException受检异常。#571 Page

发布于 2017-07-31 02:56:49 | 148 次阅读

WebMagic 0.7.2 版本发布,Java 爬虫框架
此次更新修复了0.7.x版本的若干bug。#594 Request中的HttpRequestBody实现序列化接口。#596 修复0.7.0开始代理认证无法正确使用的问题。#601 完善页面状态异常时的错误信息。#605 修复0.7.0开始重复调用onSuccess和onError函数导致监控出错的问题。

发布于 2017-06-18 12:48:53 | 179 次阅读

WebMagic 0.7.1 版本发布,Java 爬虫框架
此次更新包含几个比较大的Bugfix,以及一些遗留问题的改进。修复0.7.0引入的RedisScheduler无法使用的bug。#583注解模式的JsonPath默认会指定source为RawText,不再会出现自动为头尾加了标签导致无法解析的情况。#589RegexSelector之前版本默认匹配group1,并通过对无捕获组的正则头尾加括号的形式来统一抽取内

发布于 2017-06-04 11:56:21 | 164 次阅读

WebMagic 0.7.0 版本发布,Java 爬虫框架
WebMagic 0.7.0 版本发布了,此次更新重写了HttpClientDownloader,完善了POST等其他Http Method的支持,并重写了代理API,更加简单和便于扩展。 POST支持 新的POST API,支持各种RequestBody #513Request request = new Request("http://xxx/path"); request.setMethod(HttpC

发布于 2017-05-29 14:25:27 | 193 次阅读

WebMagic 0.6.1 版本发布,Java 爬虫框架
WebMagic 0.6.1 版本发布了。本次更新修复了一些 0.6.0 的问题和一些小优化。修改默认策略为信任所有 https 证书 #444 @ckex修复使用 startUrls 添加 url 时,如果使用了 cookie 会出现空指针的问题 #438PhantomJSDownloader 支持 crawl.js 路径自定义 #414 @jsbdPOST 请求支持 302 跳转 #44

发布于 2017-01-21 17:28:57 | 168 次阅读

WebMagic 0.6.0 版本发布,Java爬虫框架
WebMagic 0.6.0 版本发布了。此次更新主要是一些依赖包的升级和bugfix。#290 代理增加用户名密码认证 @hepan#194 重构代理池部分代码,支持自定义代理池 @EdwardsBean#314 修复低版本json-path依赖2.x的StringUtils导致报错的问题#380 升级fastjson 到1.2.21#301 修复JsonPath在注解模

发布于 2016-12-19 00:01:34 | 300 次阅读

WebMagic 0.5.3 版本发布,Java爬虫框架
时隔一年半,作者终于回归了。这个版本主要解决之前的一些BUG,后续会慢慢的继续完善功能。升级Xsoup到0.3.1,支持//div[contains(@id,'te')]语法。#245 升级Jsoup到1.8.3,解决n-th selector二进制不兼容的问题。#139 修复JsonFilePipeline保存路径的问题#144 修复@TargetUrl增加SourceRegion后取

发布于 2016-01-22 03:02:08 | 334 次阅读


Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务