发布于 2015-12-28 02:05:41 | 287 次阅读 | 评论: 1 | 来源: PHPERZ

这里有新鲜出炉的Scrapy教程,程序狗速度看过来!

Scrapy Python的爬虫框架

Scrapy是一个Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。


准备好  Ubuntu14.04 System.

1. 安装 scrapy:

       1) 按照这个 http://doc.scrapy.org/en/1.0/topics/ubuntu.html#topics-ubuntu

              但是可能会遇到下面的问题

尝试了以下方式解决了该问题:

              1>>sudo apt-get install python-pip【如果已经安装pip就不必操作此步】

              2>>sudo pip install scrapy

2另外,还有可能遇到pyasn1版本的问题:

       解决方法

              1>>sudo apt-get install python-pip

              2>>sudo pip install pyasn1 --upgrade

2. 安装 redis-server

       1)按照 http://jingyan.baidu.com/article/948f592401d172d80ff5f99a.html

但是默认server绑定了本地IP,不支持远程访问,需要Redis服务器的配置文件redis.conf

1)修改redis.conf

sudo vi /etc/redis/redis.conf

      

2)注释bind

#bind 127.0.0.1

3)修改后,重启Redis服务器:

sudo /etc/init.d/redis-server restart

 

【注意】:千万不要在windows下面修改之后再copy覆盖Ubuntu中的redis.conf,之前因为用SecureCRT,它对vi的支持不太好,所以用rzsz命令把ubuntu中的文件下载到windows本地进行修改之后再上传覆盖,由于删掉了原来的文件,修改后的文件由于编码问题导致各种报错,最后redis崩溃了。尝试了各种方法均不好使,最后卸载了redis,由于存在某些文件的残留,导致redis安装失败。最后只能重装系统,重新开始。

经验教训:得到一个教训在做重要操作之前一定要备份,然后即使犯了错误,也可以返回到最后一次能正确运行的地方。



最新网友评论  共有(1)条评论 发布评论 返回顶部
ehnymt 发布于2016-10-02 21:17:23
不行
支持(0)  反对(0)  回复

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务