【爬虫相关】DotBot是什么蜘蛛爬虫？

发布时间：2020-09-17

DotBot是由Moz的蜘蛛爬虫抓取的，如果不想让它来抓取的话，可以用robots文件禁止抓取。

Moz是什么网站？

Moz是来自美国的一个软件开发公司，由Rand Fishkin和Gillian Muessig创立于2004年，现总部位于华盛顿州西雅图市。起初，该公司是一个咨询公司，于2010年转型为软件开发公司，其官方网站上有一个在线社区和一些与营销有关的工具。此外，在SEO工具箱这页中还有包括术语提取器（Term Extractor）等在内的多个SEO工具。

具体可以看本篇

https://moz.com/help/moz-procedures/crawlers/dotbot

Moz的Link Index Crawler

Dotbot是Moz的网络爬虫。Dotbot与Rogerbot不同，Rogerbot是Moz Pro Campaigns的网站审计抓取工具。我们通过Dotbot收集的数据在Moz工具中显示在此站点上，也可通过我们的Links API获得。

为什么Moz会抓取网络？

我们的一些工具（如Link Explorer）要求我们抓取网站。发生这种情况时，用户代理dotbot用于识别我们的抓取工具。请记住，您需要一个Moz Pro帐户才能访问收集的大部分信息。我们的免费在线营销社区的成员访问受限。要查看我们收集的数据类型的示例，请在Link Explorer的搜索框中输入URL 。

如何阻止Dotbot爬行你的网站

如果您不希望Dotbot抓取您的网站，我们始终尊重标准机器人排除协议（aka robots.txt）。如果您想阻止Dotbot，您需要做的就是将我们的用户代理字符串添加到您的robots.txt文件中。

从您网站的某些区域阻止Dotbot

User-agent: dotbot

Disallow: /admin/

Disallow: /scripts/

Disallow: /images/

从您网站的任何部分阻止Dotbot

User-agent: dotbot

Disallow: /

Slow Dotbot Down

User-agent: dotbot

Crawl-delay: 10

请注意：由于Dotbot抓取网络的方式，您需要一些时间才能使更新的robots.txt文件生效。我们需要大约两周时间才能完成索引发布，而Dotbot只会在新索引抓取期间第一次遇到该网站时查看您网页的robots.txt文件。这意味着如果它看到它在网站上被允许一次，那么在下次开始全新抓取之前，不会查看对该权限的任何更改。