爬虫蜘蛛项目导出器Feed Exports之序列化格式(30)python SCRAPY最新教程1.51以上版本
实现刮刀时最常需要的功能之一是能够正确存储刮削数据,并且通常,这意味着生成带有刮削数据(通常称为“导出进给”)的“导出文件”,供其他系统使用。
Scrapy通过Feed Exports提供开箱即用的功能,允许您使用多种序列化格式和存储后端生成带有已删除项目的Feed。
序列化格式
对于序列化已删除的数据,Feed导出使用项目导出器。开箱即用支持这些格式:
但您也可以通过FEED_EXPORTERS
设置扩展支持的格式 。
JSON行
FEED_FORMAT
:jsonlines
- 出口商使用:
JsonLinesItemExporter
CSV
FEED_FORMAT
:csv
- 出口商使用:
CsvItemExporter
- 指定要导出的列及其使用顺序
FEED_EXPORT_FIELDS
。其他Feed导出器也可以使用此选项,但它对CSV很重要,因为与许多其他导出格式不同,CSV使用固定标头。
XML
FEED_FORMAT
:xml
- 出口商使用:
XmlItemExporter
pickle
FEED_FORMAT
:pickle
- 出口商使用:
PickleItemExporter
marshal
FEED_FORMAT
:marshal
- 出口商使用:
MarshalItemExporter
评论被关闭。