百度 | 神马 | 搜狗 | 技术文档 | 学习资料分享 - 记录帝国CMS及运维技术的点点滴滴
你的位置:首页 > 实用IT技术 » 正文

【爬虫相关】Barkrowler是什么蜘蛛爬虫?

发布时间:2020-09-17

作品分类:爬虫相关  爬虫  抓取  在线  爬虫  蜘蛛  Barkrowler

Barkrowler

Barkrowler是eXenSa(eXenSa是什么网站?可以看这篇文章)的BUbiNG爬虫的实验性版本(它基本上是BUbiNG,我们的拉动请求已经应用,而且正确的配置可以在EC2上进行分配)

它是尊重robots.txt协议,并且每个HOST和每个IP都有设置。

但是据网友称收到了一些报告,在某些情况下,他不遵循robots协议,如果这个蜘蛛爬虫影响你的服务器,完全可以禁掉

1.)他们是谁?

Exensa是一家非常小的法国公司,专门从事大规模的文本数据分析。我们致力于社交网络,法律文档,电子商务。

他们在网上抓取广告,所以没有特定的目标 – 除了可能用于实验目的的某些语言。我们希望确定网站和网页的语义/主题方向。

3.)他们将如何处理我们检索的数据? 

目前,我们的目标是提供一个“替代站点”搜索引擎,它比其他选择更好,特别是对于长尾(当前的替代方案允许您找到前10/20个类似的站点)。

目前还没有在线测试版(这就是我们需要执行抓取的原因)。但我们希望很快。

他的一般默认形式是

Barkrowler/0.9 (+http://www.exensa.com/crawl)

Top