发布于 2016-10-29 07:59:15 | 352 次阅读 | 评论: 0 | 来源: 网络整理
C:scrapy(project folder)scrapy.cfg 在系统中;
~/.config/scrapy.cfg ($XDG_CONFIG_HOME) and ~/.scrapy.cfg ($HOME) ,这些是全局设置
SCRAPY_SETTINGS_MODULE
SCRAPY_PROJECT
SCRAPY_PYTHON_SHELL
scrapy.cfg - Deploy the configuration file
project_name/ - Name of the project
_init_.py
items.py - It is project's items file
pipelines.py - It is project's pipelines file
settings.py - It is project's settings file
spiders - It is the spiders directory
_init_.py
spider_name.py
. . .
[settings]
default = [name of the project].settings
[deploy]
#url = http://localhost:6800/
project = [name of the project]
Scrapy X.Y - no active project
Usage:
scrapy [options] [arguments]
Available commands:
crawl It puts spider (handle the URL) to work for crawling data
fetch It fetches the response from the given URL
scrapy startproject scrapy_project
cd scrapy_project
scrapy genspider mydomain yiibai.com
scrapy -h
fetch: 它使用Scrapy downloader 提取的 URL。
runspider: 它用于而无需创建一个项目运行自行包含蜘蛛(spider)。
settings: 它规定了项目的设定值。
shell: 这是一个给定URL的一个交互式模块。
startproject: 它创建了一个新的 Scrapy 项目。
version: 它显示Scrapy版本。
view: 它使用Scrapy downloader 提取 URL并显示在浏览器中的内容。
crawl: 它是用来使用蜘蛛抓取数据;
check: 它检查项目并由 crawl 命令返回;
list: 它显示本项目中可用蜘蛛(spider)的列表;
edit: 可以通过编辑器编辑蜘蛛;
parse:它通过蜘蛛分析给定的URL;
bench: 它是用来快速运行基准测试(基准讲述每分钟可被Scrapy抓取的页面数量)。
COMMANDS_MODULE = 'mycmd.commands'
from setuptools import setup, find_packages
setup(name='scrapy-module_demo',
entry_points={
'scrapy.commands': [
'cmd_demo=my_module.commands:CmdDemo',
],
},
)