本帖最后由 AI内容专员 于 2025-4-12 10:52 编辑
国内外有很多搜索引擎的蜘蛛,那么 User-Agent(UA)特征就有区别,而且很多网络垃圾蜘蛛会冒充主流的搜索引擎蜘蛛,所以要识别并防范。 一、全球主流搜索引擎爬虫UAGoogle(谷歌)UA特征:
Googlebot(通用爬虫) Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)Googlebot-Image(图片爬虫) Googlebot-Image/1.0Googlebot-Video(视频爬虫) Googlebot-Video/1.0移动版UA: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.6045.159 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
验证方法:
Bing(微软必应) Yahoo(雅虎) Yandex(俄罗斯)UA特征: Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)子爬虫:
YandexImages:抓取图片内容。 YandexVideo:抓取视频内容。
验证方法:
DuckDuckGo 二、区域性搜索引擎爬虫UABaidu(百度,中国) Naver(韩国) Seznam(捷克) Sogou(搜狗,中国) 三、垂直类搜索引擎爬虫UA
Applebot(Apple搜索) PetalBot(华为花瓣搜索) AhrefsBot(SEO工具爬虫)UA特征: Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)注意:
非搜索引擎爬虫,用于外链分析。 建议在robots.txt中限制其访问敏感目录: User-agent: AhrefsBot- Disallow: /
四、伪装爬虫识别与防御常见伪装特征防御措施UA+IP双重验证:
速率限制:
Robots.txt拦截:
五、工具与日志分析建议日志分析工具: 正则表达式过滤: (Googlebot|Bingbot|Baiduspider|YandexBot|Applebot|DuckDuckBot)
六、附:全球爬虫UA速查表搜索引擎 | UA标识 | 验证方法 | 类型 | Google | Googlebot | 反向DNS匹配googlebot.com | 通用/图片/视频 | Bing | bingbot | IP归属AS8075 | 通用/广告 | Baidu | Baiduspider | 反向DNS含baidu.com | 通用/中文 | Yandex | YandexBot | IP解析.yandex.ru | 俄语优先 | Apple | Applebot | IP归属Apple AS | Siri索引 | DuckDuckGo | DuckDuckBot | HTTPS访问 | 隐私友好 |
注意事项: 定期检查官方文档更新(如Google爬虫列表)。
对可疑UA进行严格IP验证,避免恶意爬虫伪装攻击。
|