start_requests方法的快捷方式(4)python SCRAPY教程1.51以上版本

发表于： 2020年8月27日 2022年12月7日
分类： Python, scrapy
标签： filename, HTTP, Page, parse, python, quotes, Request, requests, Response, Scrapy, scrapy教程, Spider, start, toscrape, url, urls, 快捷方式, 方法, 爬虫, 蜘蛛

引擎盖下发生了什么？

Scrapy会调度Spider 方法scrapy.Request返回的对象start_requests。在收到每个响应后，它实例化Response对象并调用与请求相关的回调方法（在本例中为 parse方法），将响应作为参数传递。

start_requests方法的快捷方式

您可以只使用URL列表定义类属性，而不是实现从URL start_requests()生成scrapy.Request对象的方法start_urls。然后，默认实现将使用此列表start_requests()来为您的spider创建初始请求：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
        'http://quotes.toscrape.com/page/2/',
    ]

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)

parse()即使我们没有明确告诉Scrapy这样做，也会调用该方法来处理这些URL的每个请求。发生这种情况的原因parse()是Scrapy的默认回调方法，在没有明确分配回调的情况下调用请求。

Python的数字/字符/切片等介绍(3)python入门教程 2019年1月3日
创建爬虫蜘蛛项目(1)python Scrapy教程1.51以上版本 2020年8月25日
1.在另一个应用程序中嵌入Python - 扩展和嵌入Python解释器（Python教程）（参考资料） 2019年6月2日
re正则表达式语法及操作详解(11) - Python语言(必读进阶学习教程)(参考资料) 2019年1月14日
数据模型、对象、值和类型(3)Python语言的核心语法(语法教程)(参考资料) 2019年2月1日
模块与包的导入与应用import(5)Python语言(语法教程)(参考资料) 2019年2月1日
使用Python解释器(2)python入门教程 2019年1月2日
数学、字符等表达式的应用(6)Python语言(语法教程)(参考资料) 2019年2月2日
- 将URL解析为组件 - Internet协议和支持（Python教程）（参考资料） 2019年4月3日
数据结构-元组-列表-字典(5)python入门教程 2019年1月4日
各种操作系统中venv虚拟环境创建、激活和pip包安装与升级更新(12) - python入门教程 2019年1月7日