发布于 2015-11-11 00:30:18 | 201 次阅读 | 评论: 0 | 来源: 网友投递
Pholcus Go 爬虫软件
Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。
Pholcus 0.7.4 发布,更新如下:
Spider中添加Namespace func(*Spider) string与SubNamespace func(self *Spider, dataCell map[string]interface{}) string两个字段,实现自定义数据库、表单及文件的名称
简化数据库配置信息
mongodb输出中,将采集结果字段直接作为数据存储字段,便于检索
更新计时器等spider中公用方法
可通过DownloaderID指定下载器,其中phantomjs下载支持请求中定义js,用法Request.Temp["JS"]=js编码(请更新surfer下载器)
AddOutFeild(key)返回索引位置
增加输出统计报告的打印
提高被取消的请求删除去重记录的精确度
下载页面:v0.7.4
Pholcus(幽灵蛛)是一款纯Go语言编写的重量级爬虫软件,清新的GUI界面,优雅的爬虫规则、可控的高并发、任意的批量任务、多种输出方式、大量Demo,支持横纵向两种抓取模式,支持模拟登录和任务取消等,并且考虑了支持分布式布局。