– 用于robots.txt的解析器 – 互联网协议和支持（Python教程）（参考资料）

发表于： 2019年4月4日 2022年10月8日
分类： Python, python语法教程
标签： cal, DELAY, fetch, HTTP, musi, python, rate, RobotFileParser, robotparser, Robots, rp, rrate, txt, url, urllib, useragent, www, 互联网协议, 解析器

`urllib.robotparser`– 解析器for robots.txt

源代码： Lib / urllib / robotparser.py

这个模块提供了一个单独的类RobotFileParser，它回答了关于特定用户代理是否可以在发布robots.txt文件的Web站点上获取URL的问题。有关robots.txt文件，请参阅http://www.robotstxt.org/orig.html.

class urllib.robotparser.RobotFileParser(url=””)

本课程提供阅读，解析和回答有关robots.txt文件在url.

set_url（url）: 设置引用robots.txt文件的URL

read// (): 读取robots.txt URL并将其提供给解析器。

parse（lines）: 解析线条论据

can_fetch// (useragent, url): 回复True如果useragent被允许取url根据解析robots.txt文件。

mtime（）: 返回robots.txt文件是最后一次获取的。这对于需要定期检查新的robots.txt文件的长期运行的web蜘蛛来说是有用的.

modified (): 设置时间robots.txt文件最后被提取到currenttime.

crawl_delay(useragent): 从Crawl-delay返回robots.txt的值为useragent有问题如果没有这样的参数或者它不适用于useragent指定或robots.txt条目此参数的语法无效，则返回None.

版本3.6中的新增.

request_rate（useragent）: 从Request-rate返回robots.txt参数的内容作为命名的元组 RequestRate(requests, seconds)。如果没有这样的参数或它不适用于useragent指定或robots.txt此参数的条目有invalidsyntax，则返回None.

版本3.6中的新建.

以下示例演示了RobotFileParser类的基本用法：

>>> import urllib.robotparser>>> rp = urllib.robotparser.RobotFileParser()>>> rp.set_url("http://www.musi-cal.com/robots.txt")>>> rp.read()>>> rrate = rp.request_rate("*")>>> rrate.requests3>>> rrate.seconds20>>> rp.crawl_delay("*")6>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")False>>> rp.can_fetch("*", "http://www.musi-cal.com/")True

- 提供对Python配置信息的访问 - Python运行时服务（Python教程）（参考资料） 2019年5月3日
如何在 WordPress 中安装和设置 Yoast SEO 插件 2022年6月15日
如何修复“Googlebot无法访问CSS和JS文件”WordPress中的错误 2018年12月29日
- HTTP客户端的Cookie处理 - Internet协议和支持（Python教程）（参考资料） 2019年4月11日
- 通用网关接口支持 - Internet协议和支持（Python教程）（参考资料） 2019年3月31日
解决方案：zipline24/7导入bundle出错KeyError:… 2019年9月12日
- 多语言国际化服务 - 国际化（Python教程）（参考资料） 2019年4月18日
- IMAP4协议客户端 - 互联网协议和支持（Python教程）（参考资料） 2019年4月7日
- POP3协议客户端 - 互联网协议和支持（Python教程）（参考资料） 2019年4月6日
- HTTP协议客户端 - Internet协议和支持（Python教程）（参考资料） 2019年4月5日
- 用于打开URL的可扩展库 - Internet协议和支持（Python教程）（参考资料） 2019年4月3日

urllib.robotparser– 解析器for robots.txt

`urllib.robotparser`– 解析器for robots.txt