当前位置 > Chrome插件首页 > Chrome插件问答 > Google 开源 robots.txt 解析器,该协议成为官方标准

Google 开源 robots.txt 解析器,该协议成为官方标准

【Chrome插件百科】 2019-07-14 20:24:36 4143人已围观

简介Robots Exclusion Protocol (REP,爬虫排除协议) 是一个标准,控制哪些 url 可以被爬虫程序访问,哪些不能访问。Google希望开发人员构建自己的解析器,“更好地反映Google的robots.txt解析和匹配”。

 
什么是 robots.txt ?
Robots Exclusion Protocol (REP,爬虫排除协议) 是一个标准,它允许网站所有者通过一个具有特定语法的简单文本文件(即:robots.txt),控制哪些 url 可以被爬虫程序访问,哪些不能访问。
近日,Google 把自家一直在用的网络爬虫 robots.txt 解析器开源了。该仓库一度登上 GitHub 的每日趋势榜。

此处值得注意的是,抓取工具可以不同地解释robots.txt文件中包含的说明,这可能会导致网站所有者的混淆。这就是为什么谷歌还推出了C ++库,它支持Googlebot 在GitHub上的解析和匹配系统,供任何人访问。根据GitHub的发布说明,Google希望开发人员构建自己的解析器,“更好地反映Google的robots.txt解析和匹配”。

Google 称过去 25 年 Robots Exclusion Protocol (REP)协议一直是一种约定的标准,给网站管理员人员和爬虫工具开发者带来了很多不确定性。Google 现在宣布它将率先致力于让 REP 成为一个行业标准,作为这个努力的一部分,它开源了自己使用的 robots.txt 解析器,源代码托管在 GitHub 上,采用 Apache License 2.0 许可证。robots.txt 解析器是一个 C++ 库,用于解析和匹配 robots.txt 文件中的规则,它已经有约 20 年历史了,包含了 1990 年代写的代码。

Google 开源 robots.txt 解析器,该协议成为官方标准 相关插件

FromDocToPDF

生产工具插件 2019-06-22 21:28:50

Now enjoy immediate access to a FREE PDF converter, a MS Word® converter, translations, Wikipedia®, dictionary look-up and more!

热门Chrome插件