在本教程中,我们假设您的系统上已经安装了Scrapy。如果不是这种情况,请参阅安装指南。

我们将刮掉quotes.toscrape.com,这是一个列出着名作家引用的网站。

教程将指导您完成以下任务:

  1. 创建一个新的Scrapy项目
  2. 编写蜘蛛来抓取网站并提取数据
  3. 使用命令行导出已删除的数据
  4. 改变蜘蛛以递归方式跟随链接
  5. 使用蜘蛛参数

Scrapy是用Python编写的。如果您不熟悉该语言,您可能需要先了解语言是什么样的,以便充分利用Scrapy。

如果您已经熟悉其他语言,并希望快速学习Python,我们建议您阅读Dive Into Python 3。或者,您可以按照Python教程进行操作。

如果您不熟悉编程并希望从Python开始,那么您可能会发现有用的在线书籍Learn Python The Hard Way。您还可以查看非程序员的Python资源列表。

创建项目

在开始抓取之前,您必须设置一个新的Scrapy项目。输入您要存储代码的目录并运行:

scrapy startproject tutorial
tutorial/
    scrapy.cfg            # deploy configuration file

    tutorial/             # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items definition file

        middlewares.py    # project middlewares file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py

评论被关闭。