搜索引擎蜘蛛的UA特征指南

[复制链接]
发表于 2025-4-12 10:41:53 | 显示全部楼层 |阅读模式
本帖最后由 AI内容专员 于 2025-4-12 10:52 编辑

国内外有很多搜索引擎的蜘蛛,那么 User-Agent(UA)特征就有区别,而且很多网络垃圾蜘蛛会冒充主流的搜索引擎蜘蛛,所以要识别并防范。

一、全球主流搜索引擎爬虫UAGoogle(谷歌)
  • UA特征:

    • Googlebot(通用爬虫)
      Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot-Image(图片爬虫)
      Googlebot-Image/1.0
    • Googlebot-Video(视频爬虫)
      Googlebot-Video/1.0
    • 移动版UA:
      Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.6045.159 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • 验证方法:

    • 反向DNS查询:IP地址应解析为 *.googlebot.com(如 crawl-66-249-66-1.googlebot.com)。
    • 官方IP范围:归属AS15169(Google LLC)。


Bing(微软必应)
Yahoo(雅虎)
  • UA特征:
    Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
  • 备注:

    • 雅虎的搜索服务现由Bing提供支持,但Slurp爬虫仍可能用于特定数据收集。
    • 验证IP归属AS36692(Oath Inc)。


Yandex(俄罗斯)
  • UA特征:
    Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
  • 子爬虫:

    • YandexImages:抓取图片内容。
    • YandexVideo:抓取视频内容。

  • 验证方法:

    • 反向DNS需包含 .yandex.ru 或 .yandex.net。


DuckDuckGo
  • UA特征:
    DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html)
  • 特性:

    • 仅通过HTTPS访问,注重隐私。
    • 抓取频率较低,依赖Bing、Applebot等第三方数据源。

  • 验证IP:归属AS6327(SharkTech数据中心)。


二、区域性搜索引擎爬虫UABaidu(百度,中国)
  • UA特征:
    Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
  • 子爬虫:

    • Baiduspider-image:抓取图片。
    • Baiduspider-video:抓取视频。

  • 验证方法:

    • 反向DNS需解析为 baidu.com 或 baidu.jp。
    • 注意:百度爬虫可能强制转码移动页面(需设置 no-transform meta标签)。


Naver(韩国)
  • UA特征:
    Mozilla/5.0 (compatible; Yeti/1.1; +http://naver.me/bot)
  • 特性:

    • 高频抓取韩语内容,支持 .dev、.kr 域名。
    • 验证IP归属AS4687(NAVER Corp)。


Seznam(捷克)
Sogou(搜狗,中国)
三、垂直类搜索引擎爬虫UA
Applebot(Apple搜索)
  • UA特征:
    Mozilla/5.0 (Applebot/0.1; +http://www.apple.com/go/applebot)
  • 用途:

    • 为Siri、Spotlight和Safari搜索提供索引。
    • 偏好结构化数据(JSON-LD)。

  • 验证:IP归属Apple AS(AS714、AS6185)。


PetalBot(华为花瓣搜索)
AhrefsBot(SEO工具爬虫)
  • UA特征:
    Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)
  • 注意:

    • 非搜索引擎爬虫,用于外链分析。
    • 建议在robots.txt中限制其访问敏感目录:
      User-agent: AhrefsBot
    • Disallow: /

四、伪装爬虫识别与防御常见伪装特征防御措施
  • UA+IP双重验证:

    • 例如,Googlebot的UA需匹配其官方IP段(AS15169)。

  • 速率限制:

    • 使用Nginx的limit_req模块限制高频请求。

  • Robots.txt拦截:

    • 禁止非必要爬虫访问敏感路径。


五、工具与日志分析建议
日志分析工具:
  • GoAccess:实时分析爬虫访问路径。
  • ELK Stack(Elasticsearch+Logstash+Kibana):可视化监控爬虫行为。

正则表达式过滤:
(Googlebot|Bingbot|Baiduspider|YandexBot|Applebot|DuckDuckBot)

六、附:全球爬虫UA速查表
搜索引擎
UA标识
验证方法
类型
Google
Googlebot反向DNS匹配googlebot.com通用/图片/视频
Bing
bingbotIP归属AS8075通用/广告
Baidu
Baiduspider反向DNS含baidu.com通用/中文
Yandex
YandexBotIP解析.yandex.ru俄语优先
Apple
ApplebotIP归属Apple ASSiri索引
DuckDuckGo
DuckDuckBotHTTPS访问隐私友好

注意事项:
定期检查官方文档更新(如Google爬虫列表)。
对可疑UA进行严格IP验证,避免恶意爬虫伪装攻击。
声明
本文(帖子)内容来源AI生成,经过纠正调优,用于免费公开阅读,请理性对待并咨询专业人士。
快速回复 返回顶部 返回列表