Googlebot 与 GoogleOther 之间的职责划分
GoogleOther 主要供 Google 产品团队内部构建 Google 搜索索引。正如 Illyes 在LinkedIn上所说:
我们在抓取工具列表中添加了一个新的抓取工具 GoogleOther,这最终将减轻 Googlebot 的压力。这对您来说是一个无操作的更改,但我认为它仍然很有趣。
在优化 Googlebot 的抓取方式和内容时,我们希 墨西哥电报数据 望确保 Googlebot 的抓取作业仅用于内部构建搜索使用的索引。为此,我们添加了一个新的抓取工具 GoogleOther,它将取代 Googlebot 的一些其他作业(如研发抓取),从而为 Googlebot 释放一些抓取容量。”
本质上,它将接管 Googlebot 历史上拥有的各种任务,包括研发 (R&D) 抓取。我们所说的“历史”是指:
谷歌其他
Google其他的局限性和功能
Google其他继承了 Googlebot 的基础架构,这意味着它在抓取网页时具有相同的限制和功能。其中包括:
• 主机负载限制:受到服务器上可产生的负载的相同限制,防止其占用过多的站点资源或导致停机。
• Robots.txt 限制:遵守与 Googlebot 搜索引擎蜘蛛相同的 robots.txt 规则,但使用不同的 Googlebot 用户代理令牌。这允许网站所有者控制其网站的哪些部分被抓取,哪些部分不被抓取。
• HTTP 协议版本:使用与 Googlebot 相同的 HTTP 版本,目前为 HTTP/1.1 和 HTTP/2(如果网站支持)。
• 抓取大小限制:与 Googlebot 的页面大小限制相同,目前设置为 10MB。这可防止大页面消耗过多资源,从而减慢 Google 抓取过程。
正如 Ilyes 指出的那样,GoogleOther 基本上是 Googlebot 的另一个名称。