爬行统计示例更先进的解决方案是使用基于的软件来分析服务器日志文件,设法获得有关访问的更具体数据,了解哪些页面最常访问以及哪些页面检查频率较低。这样我们就可以发现某个帖子每天有次访问,而另一个帖子则每天就有次访问。由此可见,我们可以考虑通过添加内容或简单修改内部链接结构来改进第二篇文章,使其更容易被爬虫看到并传递更多的链接汁。
在此示例中,篇文章,也许可以通过添加其他优质内容或进行 电话号码数据库 特定的链接构建活动。如何优化抓取预算?对抓取预算进行特定的优化与经典的活动有许多相似之处,例如针对某些文章构建链接可以提高其重要性并有利于对其进行更频繁的控制。然后可以执行非常复杂的具体干预措施,但也可以采取简单的措施来解决网站设计中的遗忘或其他错误。小心机器人低价值页面和私有区域不应被索引,因为爬行这些内容会浪费爬行预算,因为它们不提供有机流量。
考虑到现在已澄清文件不会阻止结果出现在中,因此在此文件中指示不被索引的网站部分的列表是不够的。相反,我们需要确定所有到底是什么,并且可以使用元标记对它们进行取消索引。<元名称“机器人”内容“”>显然,当您使用元标记时,您不应该使用“”来阻止文件中的同一页面,因为否则将无法访问它以知道它不应该被索引。
检查是否有损坏的链接尤其是在拥有数万个页面的网站上,而且对于只有几十个页面的小型博客来说,拥有一个功能良好且最重要的是经过测试的内部链接结构至关重要,因为一个损坏的链接可能指向一个类别)会导致无法扫描并随后索引数十或数百页充满优质内容的页面。通常,损坏的链接会导致响应代码为“未找到”的页面,但最重要的是,在中,由于特定页面上某个插件的配置错误,可能会出现“服务不可用”代码。要监控损坏的链接,您可以使用像这样的爬虫定期扫描整个网站,或者主要付费工具提供其他远程扫描解决方案。