发布于 2016-01-20 03:56:32 | 266 次阅读 | 评论: 0 | 来源: 网友投递
Pholcus Go 爬虫软件
Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。
近日,Pholcus 升级 v0.8.0 版本了,最大的亮点就是:终于突破规则需要静态编译的局制,增加支持HTML风格的动态规则。以后交流分享规则变得更加方便,随之而来将会是愈加完善的生态圈。
以下是具体更新内容:
一、初步支持HTML风格的动态规则
二、添加配置文件,便于修改数据库配置等信息
三、重新规划软件依赖文件目录
├─pholcus 软件
│
├─pholcus 依赖文件目录
│ ├─pholcus.ini 配置文件
│ │
│ ├─proxy.lib 代理IP列表库
│ │
│ ├─spider.lib 动态规则目录
│ │ └─xxx.pholcus.html 动态规则文件
│ │
│ ├─phantomjs 程序文件
│ │
│ ├─logs 日志目录
│ │
│ ├─history 历史记录目录
│ │
└─└─cache 临时缓存目录
四、增强代理IP功能
五、增强状态控制功能
六、为Spider结构体添加定时器
七、增强Request结构体序列化与反序列化的可靠性
八、Web界面的外部资源文件全部打包进软件
九、更新下载器Surfer至0.9版本,性能更佳