Spiderman Java网络蜘蛛/网络爬虫

Spiderman - 又一个Java网络蜘蛛/爬虫

Spiderman 是一个基于微内核+插件式架构的网络蜘蛛，它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。

主要特点

* 灵活、可扩展性强，微内核+插件式架构，Spiderman提供了多达 10 个扩展点。横跨蜘蛛线程的整个生命周期。
* 通过简单的配置就可以将复杂的网页内容解析为自己需要的业务数据，无需编写一句代码
* 多线程

怎么使用？

首先，确定好你的目标网站以及目标网页（即某一类你想要获取数据的网页，例如网易新闻的新闻页面）
然后，打开目标页面，分析页面的HTML结构，得到你想要数据的XPath，具体XPath怎么获取请看下文。
最后，在一个XML配置文件里填写好参数，运行Spiderman吧！

这里有个抓取案例

这里有篇文章介绍示例: HTTP://my.oschina.NET/laiweiwei/blog/100866

XPath获取技巧？

这里只说下Chrome浏览器，其他浏览器估计也差不多，只不过插件不同而已。

首先，下载xpathonclick插件,HTTPS://chrome.Google.com/websTore/search/xpathonclick
安装完毕之后，打开Chrome浏览器，可以看到右上角有个“X Path” 图标。
在浏览器打开你的目标网页，然后点击右上角的那个图片，然后点击网标上你想要获取XPath的地方，例如某个标题
这时候按住F12打开JS控制台，拖到底部，可以看到一串XPath内容
记住，这个内容不是绝对OK的，你可能还需要做些修改，因此，你最好还是去学习下XPath语法
学习XPath语法的地方:http://www.w3school.com.cn/xpath/index.ASP

最新资讯

Python获取系统所有进程PID及进程名称的方法示例

Python简单获取网卡名称及其IP地址的方法【基于psutil模块】

Python实现的根据IP地址计算子网掩码位数功能示例

好的Python培训机构应该具备哪些条件

详解Pytorch 使用Pytorch拟合多项式(多项式回归)

Python加载带有注释的Json文件实例

对python的文件内注释 help注释方法

Python实现判断一行代码是否为注释的方法

Oracle数据库表中字段顺序的修改方法

ASP.NET MVC 4使用PagedList.Mvc分页的实现代码

Oracle实例启动时报错：ORA-32004的解决方法

解读ASP.NET 5 & MVC6系列教程（7）：依赖注入

详解IDEA用maven创建springMVC项目和配置

ASP.NET MVC5网站开发之展示层架构（五）

SpringBoot创建maven多模块项目实战代码

月排行榜

后端技术

前端技术

数据库

热门框架

常用IDE

其他

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved 冀ICP备14009818号版权声明广告服务