百度 | 神马 | 搜狗 | 技术文档 | 学习资料分享 - 记录帝国CMS及运维技术的点点滴滴
你的位置:首页 > 实用IT技术 » 正文

【SEO优化】百度小程序抓取蜘蛛 UA 识别与判断

发布时间:2020-09-17

作品分类:SEO优化  蜘蛛  识别  程序  抓取  蜘蛛  识别  判断  程序

百度小程序抓取蜘蛛 UA 识别与判断,

昨天看到百度官方公开了识别的最新信息,并且第一次官方渠道表示百度蜘蛛 UA(user agent)目前分为 PC、移动、小程序三个应用场景,相比以往的 PC 端和移动端,这次也新到了针对的 UA,因为百度小程序支持 web,所以就需要百度蜘蛛的抓取。

1
2
3
4
//百度蜘蛛移动 UA
Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
//或
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
1
2
3
4
//百度蜘蛛 PC UA
Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
或
Mozilla/5.0(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
1
2
//百度蜘蛛小程序 UA
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

如何真确的识别百度蜘蛛呢?

由于搜索引擎蜘蛛 UA 是可以被仿造和修改的,所以想要真确的识别百度蜘蛛需要通过反查 IP 来查询来源的主机名判断,最近IT131也在开发关于搜索引擎 IP 查询工具(https://ip.leiue.com),一方面是收集整理搜索引擎蜘蛛,一方面也是另做他用,后期完善后可能会提供开放 api,以此来给达一些网站运营或者开发者提高效率。

站长可以通过 DNS 反查 IP 的方式判断某只 spider 是否来自百度搜索引擎。 的 hostname 以*.baidu.com 或*.baidu.jp 的格式命名,非*.baidu.com 或*.baidu.jp 即为冒充。

Top