クローラ(Crawler)とは、Web上を自動的に巡回して情報を収集するプログラムのことです。「スパイダー」「ボット」とも呼ばれ、検索エンジンがWebサイトの内容を把握するための重要な仕組みです。Googleの場合は「Googlebot」、Bingは「Bingbot」が代表的なクローラです。
クローラがサイトを訪れてページ内容を読み取り、その情報を検索エンジンのデータベース(インデックス)に登録します。クローラに正しく巡回されなければ、どんなに良いコンテンツも検索結果に表示されません。
クローラの仕組み|3つのステップ
Step 1
URL発見
サイトマップ・リンクからURLを発見
Step 2
ページ取得
HTMLやCSS、画像などを取得
Step 3
情報送信
取得情報をインデクサに送信
主要なクローラ一覧
| クローラ名 | 運営元 | 特徴 |
|---|---|---|
| Googlebot | 世界最大、モバイル版優先 | |
| Bingbot | Microsoft | Bing検索、Copilot連携 |
| GPTBot | OpenAI | ChatGPT学習用データ収集 |
クローラ巡回を促進する5つの方法
1
XMLサイトマップを送信|Search Consoleから登録
2
内部リンクを最適化|重要ページへのリンクを増やす
3
ページ速度を改善|クロールバジェットを有効活用
4
robots.txtを適切に設定|不要ページをブロック
5
定期的にコンテンツ更新|巡回頻度を上げる
AI検索時代のクローラ対応
ChatGPTやPerplexityなどAI検索が普及し、GPTBotやClaudeBot等の新しいクローラが登場しています。これらのクローラにも適切に情報提供することで、AI検索結果への露出が増えます。robots.txtで個別に制御することも可能です。
よくある質問
クローラのアクセスを確認するには?
Search Consoleの「クロール統計情報」で確認できます。サーバーログでも「Googlebot」等のユーザーエージェントを検索可能です。
クローラをブロックするとどうなる?
robots.txtでブロックすると、そのクローラからはページが認識されなくなり、検索結果に表示されなくなります。
クロールバジェットとは?
Googleがサイトに割り当てるクロールの上限のことです。大規模サイトでは特に重要で、低品質ページを減らすことで重要ページの巡回頻度が上がります。