发布时间:2020-09-17
Barkrowler
Barkrowler是eXenSa(eXenSa是什么网站?可以看这篇文章)的BUbiNG爬虫的实验性版本(它基本上是BUbiNG,我们的拉动请求已经应用,而且正确的配置可以在EC2上进行分配)
它是尊重robots.txt协议,并且每个HOST和每个IP都有设置。
但是据网友称收到了一些报告,在某些情况下,他不遵循robots协议,如果这个蜘蛛爬虫影响你的服务器,完全可以禁掉
1.)他们是谁?
Exensa是一家非常小的法国公司,专门从事大规模的文本数据分析。我们致力于社交网络,法律文档,电子商务。
他们在网上抓取广告,所以没有特定的目标 – 除了可能用于实验目的的某些语言。我们希望确定网站和网页的语义/主题方向。
3.)他们将如何处理我们检索的数据?
目前,我们的目标是提供一个“替代站点”搜索引擎,它比其他选择更好,特别是对于长尾(当前的替代方案允许您找到前10/20个类似的站点)。
目前还没有在线测试版(这就是我们需要执行抓取的原因)。但我们希望很快。
他的一般默认形式是
Barkrowler/0.9 (+http://www.exensa.com/crawl)
全站搜索