发布于 2015-10-21 01:02:36 | 192 次阅读 | 评论: 0 | 来源: 网友投递
Pholcus Go 爬虫软件
Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。
Pholcus 0.7.3 发布,更新内容如下:
全面升级
一、界面升级:
1. Windows下编译时自动添加图标
2. web及cmd版的命令行窗口添加软件名称
二、下载器相关升级:
1. 初步增加PhantomJS下载器,实现双下载引擎,可在请求中指定
2. 下载控制转移至Request中,从而下载更灵活
3. Request增加重定向跳转次数控制功能
4. Request可以支持无限重载
5. Request增加序列化方法
6. 下载器实例改为全局唯一
三、规则语法升级:
1. 文本结果输出方法改为Output(ruleName string, resp context.Response, item interface{})
2. 文件输出方法建议用FileOutput(resp *context.Response, name ...string)
3. 更改解析函数Parse(resp *context.Response, ruleName ...string),ruleName为空时调用Root函数
4. OutFeild()方法改为IndexOutFeild()
5. Spider结构体新增CreatItem(ruleName string, item map[int]interface{}) map[string]interface{},将map索引自动转换为OutFeild字段
6. Spider结构体新增代理服务器列表
6. AddQueue()接收Request参数,UseCookie改为EnableCookie
7. 规则方法库中升级timer计时器
四、数据库操作升级:
1. 优化更新mongodb操作方法库
2. 数据库连接池增加空闲连接定时回收
下载页面:v0.7.3
Pholcus(幽灵蛛)是一款纯Go语言编写的重量级爬虫软件,清新的GUI界面,优雅的爬虫规则、可控的高并发、任意的批量任务、多种输出方式、大量Demo,支持横纵向两种抓取模式,支持模拟登录和任务取消等,并且考虑了支持分布式布局。