User-Agent文字列からGooglebotを検出する

User-Agent文字列からGooglebotのデスクトップとスマートフォンクローラーを識別します。Googlebotの各バリアントと本物のGooglebotリクエストの検証方法を学びます。

Bot Detection

詳細な説明

User-Agent文字列でのGooglebot識別

Googlebotは、Google検索がWebコンテンツをインデックスするために使用するWebクローラーです。クロールモードに応じて異なるUser-Agent文字列を使用します。

Googlebotデスクトップ

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebotスマートフォン

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.6099.144 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

本物のGooglebotの検証

重要: 誰でもUser-AgentをGooglebotに設定できます。本物のGooglebotリクエストを検証するには:

  1. IPアドレスの逆引きDNS*.googlebot.comまたは*.google.comに解決される必要がある
  2. ホスト名の正引きDNS — 元のIPに解決される必要がある
  3. GoogleはJSON形式でGooglebot IPレンジのリストを公開

モバイルファーストインデックス

Googleがモバイルファーストインデックスに切り替えて以降、スマートフォンGooglebotがほとんどのサイトの主要クローラーです。どのGooglebotバリアントがサイトを訪問しているかを理解することは、インデックス問題のデバッグに重要です。

ユースケース

SEOエンジニアやDevOpsチームがGooglebotを検出して、プリレンダリングされたページの提供、クロールバジェットの管理、インデックス問題のデバッグ、重要なコンテンツがGoogleのクローラーにアクセス可能であることの確認を行います。アナリティクスダッシュボードでボットトラフィックがカウントされないようにするためにも使用されます。

試してみる — User-Agent Parser & Analyzer

フルツールを開く