$ scrapy genspider -l
Available templates:
  basic
  crawl
  csvfeed
  xmlfeed

$ scrapy genspider example example.com
Created spider 'example' using template 'basic'

$ scrapy genspider -t crawl scrapyorg scrapy.org
Created spider 'scrapyorg' using template 'crawl'

这只是一个方便的快捷方式命令，用于根据预定义的模板创建蜘蛛，但肯定不是创建蜘蛛的唯一方法。您可以自己创建蜘蛛源代码文件，而不是使用此命令。

抓取

句法： scrapy crawl <spider>
需要项目：是的

使用蜘蛛开始抓取。

用法示例：

$ scrapy crawl myspider
[ ... myspider starts crawling ... ]

检查

句法： scrapy check [-l] <spider>
需要项目：是的

运行合同检查。

用法示例：

$ scrapy check -l
first_spider
  * parse
  * parse_item
second_spider
  * parse
  * parse_item

$ scrapy check
[FAILED] first_spider:parse_item
>>> 'RetailPricex' field is missing

[FAILED] first_spider:parse
>>> Returned 92 requests, expected 0..4

列表

句法： scrapy list
需要项目：是的

列出当前项目中的所有可用蜘蛛。输出是每行一个蜘蛛。

用法示例：

$ scrapy list
spider1
spider2

编辑

句法： scrapy edit <spider>
需要项目：是的

使用EDITOR环境变量中定义的编辑器或（如果未设置）EDITOR设置编辑给定的蜘蛛。

此命令仅作为最常见情况的便捷快捷方式提供，开发人员当然可以自由选择任何工具或IDE来编写和调试蜘蛛。

用法示例：

$ scrapy edit spider1

获取

句法： scrapy fetch <url>
需要项目：没有

使用Scrapy下载程序下载给定的URL，并将内容写入标准输出。

这个命令的有趣之处在于它获取了蜘蛛下载它的页面。例如，如果蜘蛛具有USER_AGENT 覆盖用户代理的属性，则它将使用该属性。

因此，此命令可用于“查看”您的蜘蛛如何获取某个页面。

如果在项目外部使用，则不会应用特定的每蜘蛛行为，它将仅使用默认的Scrapy下载程序设置。

支持的选项：

--spider=SPIDER：绕过蜘蛛自动检测并强制使用特定的蜘蛛
--headers：打印响应的HTTP标头而不是响应的正文
--no-redirect：不要遵循HTTP 3xx重定向（默认是遵循它们）

用法示例：

$ scrapy fetch --nolog http://www.example.com/some/page.html
[ ... html content here ... ]

$ scrapy fetch --nolog --headers http://www.example.com/
{'Accept-Ranges': ['bytes'],
 'Age': ['1263   '],
 'Connection': ['close     '],
 'Content-Length': ['596'],
 'Content-Type': ['text/html; charset=UTF-8'],
 'Date': ['Wed, 18 Aug 2010 23:59:46 GMT'],
 'Etag': ['"573c1-254-48c9c87349680"'],
 'Last-Modified': ['Fri, 30 Jul 2010 15:30:18 GMT'],
 'Server': ['Apache/2.2.3 (CentOS)']}

视图

句法： scrapy view <url>
需要项目：没有

在浏览器中打开给定的URL，因为您的Scrapy 蜘蛛会“看到”它。有时蜘蛛会看到不同于常规用户的页面，因此可以用来检查蜘蛛“看到”的内容并确认它是您所期望的。

支持的选项：

--spider=SPIDER：绕过蜘蛛自动检测并强制使用特定的蜘蛛
--no-redirect：不要遵循HTTP 3xx重定向（默认是遵循它们）

用法示例：

$ scrapy view http://www.example.com/some/page.html
[ ... browser starts ... ]

外壳

句法： scrapy shell [url]
需要项目：没有

为给定的URL启动Scrapy shell（如果给定），如果没有给出URL，则为空。还支持UNIX样式的本地文件路径，相对于 ./或../前缀或绝对文件路径。有关详细信息，请参阅Scrapy shell。

支持的选项：

--spider=SPIDER：绕过蜘蛛自动检测并强制使用特定的蜘蛛
-c code：评估shell中的代码，打印结果并退出
--no-redirect：不要遵循HTTP 3xx重定向（默认是遵循它们）; 这只会影响您在命令行中作为参数传递的URL; 一旦进入shell，fetch(url)默认情况下仍会遵循HTTP重定向。

用法示例：

$ scrapy shell http://www.example.com/some/page.html
[ ... scrapy shell starts ... ]

$ scrapy shell --nolog http://www.example.com/ -c '(response.status, response.url)'
(200, 'http://www.example.com/')

# shell follows HTTP redirects by default
$ scrapy shell --nolog http://httpbin.org/redirect-to?url=http%3A%2F%2Fexample.com%2F -c '(response.status, response.url)'
(200, 'http://example.com/')

# you can disable this with --no-redirect
# (only for the URL passed as command line argument)
$ scrapy shell --no-redirect --nolog http://httpbin.org/redirect-to?url=http%3A%2F%2Fexample.com%2F -c '(response.status, response.url)'
(302, 'http://httpbin.org/redirect-to?url=http%3A%2F%2Fexample.com%2F')

解析

句法： scrapy parse <url> [options]
需要项目：是的

获取给定的URL并使用处理它的蜘蛛解析它，使用随--callback选项传递的方法，或者parse如果没有给出。

支持的选项：

--spider=SPIDER：绕过蜘蛛自动检测并强制使用特定的蜘蛛
--a NAME=VALUE：设置蜘蛛参数（可能重复）
--callback或-c：用作解析响应的回调的spider方法
--meta或-m：将传递给回调请求的其他请求元。这必须是有效的json字符串。示例：-meta ='{“foo”：“bar”}’
--pipelines：通过管道处理项目
--rules或-r：使用CrawlSpider 规则来发现用于解析响应的回调（即蜘蛛方法）
--noitems：不显示刮下的物品
--nolinks：不显示提取的链接
--nocolour：避免使用pygments为输出着色
--depth或-d：递归请求的深度级别（默认值：1）
--verbose或-v：显示每个深度级别的信息

用法示例：

$ scrapy parse http://www.example.com/ -c parse_item
[ ... scrapy log lines crawling example.com spider ... ]

>>> STATUS DEPTH LEVEL 1 <<<
# Scraped Items  ------------------------------------------------------------
[{'name': u'Example item',
 'category': u'Furniture',
 'length': u'12 cm'}]

# Requests  -----------------------------------------------------------------
[]

设置

句法： scrapy settings [options]
需要项目：没有

获取Scrapy设置的值。

如果在项目中使用它将显示项目设置值，否则它将显示该设置的默认Scrapy值。

用法示例：

$ scrapy settings --get BOT_NAME
scrapybot
$ scrapy settings --get DOWNLOAD_DELAY
0

runspider

句法： scrapy runspider <spider_file.py>
需要项目：没有

在Python文件中运行自包含的蜘蛛，而无需创建项目。

用法示例：

$ scrapy runspider myspider.py
[ ... spider starts crawling ... ]

版本

句法： scrapy version [-v]
需要项目：没有

打印Scrapy 版本。如果与-v它一起使用，还会打印Python，Twisted和Platform信息，这对于错误报告很有用。

测试

版本0.17中的新功能。

句法： scrapy bench
需要项目：没有

运行快速基准测试。基准测试。

自定义项目命令

您还可以使用该COMMANDS_MODULE设置添加自定义项目命令。有关如何实现命令的示例，请参阅scrapy /命令中的 Scrapy命令。

COMMANDS_MODULE

默认值:( ''空字符串）

用于查找自定义 Scrapy命令的模块。这用于为Scrapy项目添加自定义命令。

例：

COMMANDS_MODULE = 'mybot.commands'

通过setup.py入口点注册命令

注意

这是一个实验性功能，请谨慎使用。

您还可以通过scrapy.commands在库setup.py 文件的入口点中添加一个部分来从外部库添加Scrapy命令。

以下示例添加my_command命令：

from setuptools import setup, find_packages

setup(name='scrapy-mymodule',
  entry_points={
    'scrapy.commands': [
      'my_command=my_scrapy_module.commands:MyCommand',
    ],
  },
 )

爬虫蜘蛛Scrapy核心Crawler API详细介绍(63)python Scrapy教程1.51以上版本 2020年9月26日
使用蒙特卡洛方案为奇异期权定价的观察 2022年9月1日
爬虫蜘蛛scrapy.Item类详解 (17)python SCRAPY最新教程1.51以上版本 2020年9月2日
蜘蛛采集选择器xpath的详细使用讲解python… 2020年9月1日
爬虫蜘蛛Scrapy shell之运行使用shell详解 (26)python SCRAPY最新教程1.51以上版本 2020年9月6日
爬虫蜘蛛Scrapy如何使用项目导出器Item Exporters？(70)python… 2020年9月29日
爬虫蜘蛛常见问题解答(42)python Scrapy教程1.51以上版本 2020年9月15日
运行Scrapy爬虫蜘蛛的方法大全(45)python Scrapy教程1.51以上版本 2020年9月17日
爬虫蜘蛛Scrapy设置Settings大全(36)python SCRAPY最新教程1.51以上版本 2020年9月11日
Scrapy最新简介 2020年8月24日
爬虫蜘蛛Scrapy内置蜘蛛中间件SPIDER_MIDDLEWARES的详细介绍(61)python… 2020年9月25日

startproject命令

抓取

检查

设置

测试

自定义项目命令

COMMANDS_MODULE

文章导航