WebMagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
以下是爬取oschina博客的一段代码:
Spider.create(new SimplePageProcessor("HTTP://my.oschina.NET/", "http://my.oschina.net/*/blog/*")).thread(5).run();
webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookIE等功能。
webmagic包含强大的页面抽取功能,开发者可以便捷的使用CSS selecTor、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。例如:
String exTractResult = Html.create(html).$("div.body") .xpath("//a/@href").regex(".*blog.*").toString();
webmagic也可以很方便的作为一个模块,嵌入Java项目中运行。
webmagic的使用文档:http://webmagic.io/docs/
发布于 2017-07-31 02:56:49 | 148 次阅读
发布于 2017-06-18 12:48:53 | 179 次阅读
发布于 2017-06-04 11:56:21 | 164 次阅读
发布于 2017-05-29 14:25:27 | 193 次阅读
发布于 2017-01-21 17:28:57 | 168 次阅读
发布于 2016-12-19 00:01:34 | 300 次阅读
发布于 2016-01-22 03:02:08 | 334 次阅读