コンテンツマーケティング

【完全ガイド】クロールバジェットとは？仕組みやSEOへの影響、最適化の方法7つを解説

TEKE

更新日：2026.05.19 16:14

【完全ガイド】クロールバジェットとは？仕組みやSEOへの影響、最適化の方法7つを解説

「新しく作ったページがなかなかインデックスされない」
「Search Consoleで気になるエラーが増えてきた」

上記の状況に直面したことがあるSEO担当の方は多いのではないでしょうか。

こうしたお悩みの原因として、クロールバジェットが関わっているケースがあります。

ただしクロールバジェットは「ほとんどのサイトでは気にしなくていい」と言われている概念であるため、自社が対策すべきかどうかの判断が難しいですよね。

そこで本記事では、クロールバジェットの基本概念から、SEOへの影響、確認方法、最適化のための7つの施策、そして生成AI時代に求められる対応まで、実務に直結する形でまとめました。

クロールバジェットについてはじめて学ぶ方も、すでに対策に取り組んでいる方も、ぜひ参考にしてみてください。

1 クロールバジェットとは
- 1.1 クロールバジェットに関するGoogleの公式見解
- 1.2 クロールバジェットに関連する用語
2 クロールバジェットがSEOに与える影響
3 クロールバジェットがSEO成果に悪影響をもたらしているか確認する方法
- 3.1 Googlebotの処理フロー
- 3.2 Google Search Consoleでの確認方法
4 クロールバジェットの影響を受けやすいサイト
5 クロールバジェットに悪影響を及ぼすページの種類
6 クロールバジェットを最適化する方法7つ
7 生成AI・LLMOクローラー時代のクロールバジェット
8 よくある質問
9 まとめ

クロールバジェットとは

クロールバジェットとは、Googleの検索エンジンロボット（Googlebot）が一定期間内に1つのWebサイトをクロールできるURLの上限のことです。

Googleは世界中の膨大なWebページを巡回しており、各サイトに無制限のリソースを割り当てることはできません。そこで、サイトごとに「ここまでクロールする」という枠（budget/バジェット＝予算）を決めています。

ただし、ほとんどのWebサイトはクロールバジェットを意識する必要はありません。Google Search Centralも、数千ページ規模までの一般的なサイトであれば、新しいページや更新したページは通常問題なくクロールされると発表しています。

つまりクロールバジェットが課題になるのは、主に数万ページ以上の大規模サイトや、URLが動的に大量生成されるサイトに限られます。

クロールバジェットに関するGoogleの公式見解

Google Search Centralは、クロールバジェットについて一言で説明できる用語ではないと前置きしたうえで、次の2つの要素から構成されると説明しています。

クロールの上限（Crawl rate limit）

サイトのサーバーに負荷をかけすぎないために調整される、Googlebotのクロール速度や同時接続数の上限のこと。

サイトの表示が速く安定していればクロール量は増えやすく、遅い・エラーが多い場合は減らされます。

クロールの需要（Crawl demand）

Googlebot がそのページをどれくらいクロールしたいかを表す需要のこと。

人気なページや更新頻度の高いページ、サイト内の重要ページなどはクロールされやすく、アクセスやリンクが少ないページや更新されないページ、内容が薄い・重複しているページ、エラーが多いサイトのページなどはクロールされづらくなります。

クロールの上限と需要の掛け合わせで、Googleが各サイトに割り当てるクロール量＝クロールバジェットが決まります。

クロールバジェットに関連する用語

クロールバジェットを正しく理解するため、周辺用語もあわせて押さえておきましょう。

クローラビリティ	サイトがクローラーにとって巡回しやすい状態になっているかを示す概念。内部リンク構造・サイトマップ・サーバー応答などが主な要素となります。
クロール頻度	個々のページがどれくらいの頻度でクロールされるかを表す指標。更新頻度が高い・重要度が高いページはクロール頻度が高く、古い・リンクの少ないページはクロール頻度が低くなりやすいです。
クロールキュー	Googleがクロール予定のURLを並べておく内部的な待ち行列のこと。優先度の高いURLから順に処理されます。
インデックス	クロールされたページがGoogleのデータベースに登録された状態。クロール≠インデックスである点に注意が必要です。
Googlebot	Googleが運用するクローラー（検索エンジンロボット）の総称。スマートフォン用・PC用・画像用など複数の種類が存在します。

クロールバジェットがSEOに与える影響

クロールバジェットが、SEOランキングを直接決めることはありません。

ただし、クロールバジェットが不足すると、新規公開・更新したページがクロールされずインデックスされない、あるいはインデックスが遅れるという形でSEO成果に悪影響が出ます。

「インデックスされない＝検索結果に表示されない」ため、いくらページを公開・更新しても検索流入を取りこぼし続けることとなってしまうのです。

例えばECサイトの場合、新商品を公開してもインデックスされなければ検索経由の購入が見込めません。ニュースサイトの場合、インデックスが遅れると検索需要のピーク時に表示されず、競合に流入を奪われてしまいます。

また、インデックスされない状態が続くとGoogleに「情報が古いまま」と見なされ、サイトの評価が相対的に下がってしまう可能性もあります。

クロールバジェットがSEO成果に悪影響をもたらしているか確認する方法

クロールバジェットがSEO成果に悪影響を及ぼしているかどうか判断するためには、前提としてGooglebotの処理フローを理解しておく必要があります。

Googlebotの処理フロー

Google Search Centralは、検索エンジンの処理には以下3つのステージがあると説明しています。

ステージ	内容	関連する要素
1．クロール	Googlebotがウェブ上で見つけたページから、テキスト・画像・動画をダウンロードする	サーバー応答速度、robots.txt、XMLサイトマップ、内部リンク、クロールバジェット
2．インデックス登録	取得したテキスト・画像・動画ファイルを解析し、Googleインデックスに保存する	コンテンツ品質、重複判定、canonical
3．検索結果の表示	ユーザーが検索したときに、関連する情報を返す	ランキングアルゴリズム、E-E-A-T、検索意図への適合

クロールバジェットが直接影響するのは、上記のうち「クロール」のステージです。

クロールバジェットによる影響を受けているかどうかは、Google Search Consoleの「ページインデックス」レポートで確認できます。具体的な方法について、以下で詳しく解説します。

Google Search Consoleでの確認方法

クロールバジェットがSEO成果に悪影響を及ぼしているかは、以下の手順で確認できます。

Google Search Consoleで該当サイトの管理画面を開く
「インデックス作成」から「ページ」を開く
「ページがインデックスに登録されなかった理由」を確認する

「検出 – インデックス未登録」と「クロール済み – インデックス未登録」のステータスを見ることで、クロールバジェットによる影響を受けているかどうかが確認できます。

ステータス	状態	判断
検出 – インデックス未登録	GoogleがURLを発見したが、まだクロールしていない	クロールバジェットが不足している可能性がある
クロール済み – インデックス未登録	Googleがクロールしたが、インデックスに値しないと判断した	クロールバジェットの問題ではない（コンテンツの質の問題）

「検出 – インデックス未登録」は、Googlebotがクロールキューに入れたままクロールが追いついていない状態を示しています。このステータスのURLが大量にある場合、クロールバジェット不足を疑った方が良いでしょう。

Google公式ヘルプでも、「Google が URL をクロールしようとしたものの、サイトへの過負荷が予想されたため、クロールの再スケジュールが必要となった」場合に発生すると説明されています。

一方、「クロール済み – インデックス未登録」は、Googlebotがページにアクセスしたうえでインデックスに含める価値がないと判断した場合のステータスです。クロールバジェットの問題ではなく、コンテンツの品質が問題だと捉えることができます。

クロールバジェットの影響を受けやすいサイト

サイトのURLが数千未満であれば、効率的にクロールされるケースがほとんどです。そのため、多くのサイトはクロールバジェットについて気にする必要がありません。

クロールバジェットの影響を受けやすいサイトは、基本的に以下の3つに限られます。

大規模サイト
動的にURLが生成されるサイト
更新頻度が高いサイト

それぞれ詳しく説明します。

大規模サイト

ページ数が数万を超える大規模サイトは、クロールバジェットの影響を受ける可能性があります。ページ数が多いほど、各ページのクロール頻度が相対的に下がりやすくなるためです。

ECサイト・不動産ポータル・求人サイトなど、商品・物件・案件ページが大量に存在するサイトは、クロールバジェットについて注意した方が良いでしょう。

動的にURLが生成されるサイト

ページ数自体は中規模でも、URLパラメータによって動的にページが大量生成されるサイトは、実質的なクロール対象URLが膨大になります。

代表例は、ECサイトのファセットナビゲーション（色・サイズ・価格帯などの絞り込み機能）です。絞り込み条件の組み合わせで数百〜数千のURLが派生し、セッションID・ソート順・ページネーションも別URLとして扱われます。

派生したページは内容が重複していることが多く、放置するとクロールバジェットの大部分が実質的に同じ内容のページの巡回に費やされ、本来クロールしてほしいページが後回しになってしまうケースがあります。

更新頻度が高いサイト

ニュースメディアや速報サイトといった、コンテンツの更新頻度が高いサイトもクロールバジェットの影響を受けやすいです。新規ページの追加スピードに対してクロールが追いつかなくなるためです。

サイト内に1万ページ以上あり、コンテンツを毎日更新するような場合はクロールバジェット管理が必要になります。

クロールバジェットに悪影響を及ぼすページの種類

以下6つのページは、クロールバジェットに悪影響を及ぼす可能性があります。

ファセットナビゲーションとセッションID
重複コンテンツ
ソフト404ページ
ハッキングされたページ
無限のスペースとプロキシ
低品質・スパムコンテンツ

以下で詳しく解説します。

ファセットナビゲーションとセッションID

ファセットナビゲーションは、ECサイトでよく使われる絞り込み機能（色・サイズ・価格帯など）です。条件の組み合わせで数百〜数千のURLが派生し、その大半が内容の重複したページになります。

セッションIDは、ユーザーごとに固有のIDをURLに付与する仕組みです。1ページに対して無限のURLが生成されるため、クロールバジェットを大量に消費します。

重複コンテンツ

URLの大文字・小文字違い、wwwの有無、httpとhttpsの混在、末尾スラッシュの有無など、技術的な要因によって同一・類似コンテンツが複数のURLに存在すると、重複コンテンツとみなされます。

Googleは重複ページを1つに統合してインデックスしますが、その判定のために各URLをクロールするため、クロールバジェットの無駄遣いにつながります。

ソフト404ページ

存在しないページに対して、本来返すべき404ステータスコードではなく、200 OK（正常）を返してしまっているページを「ソフト404ページ」と呼びます。

「お探しのページは見つかりませんでした」といったメッセージを表示しつつ、HTTPステータスは200を返しているケースがほとんどです。

Googlebotから見ると「正常なページ」として認識されるため、繰り返しクロールされてクロールバジェットが消費されます。

ハッキングされたページ

第三者によって不正にコンテンツが追加・改ざんされ、スパムリンクや不正なリダイレクト先が埋め込まれると、Googlebotはそれらのリンク先もクロールしようとし、結果としてクロールバジェットが消費されます。

セキュリティ上のリスクも大きいため、Search Consoleの「セキュリティの問題」レポートを定期的に確認しておきましょう。

無限のスペースとプロキシ

無限のスペースとは、カレンダーの「次月」リンクのように、リンクをたどると無限にURLが生成される構造を指します。Googlebotがリンクをたどり続けて止まらなくなり、クロールバジェットを際限なく使ってしまいます。

プロキシは、外部サイトのコンテンツを自サイトのURLで表示する仕組みです。実質的に無限のURLパターンが生成されるため、無限のスペースと同様にクロールバジェットが消費され続けます。

低品質・スパムコンテンツ

独自性の低い自動生成ページや内容の薄いタグページ、コピーコンテンツといった低品質・スパムコンテンツはクロールバジェットに悪影響を及ぼします。

低品質なページが多いほど、サイト全体のクロール優先度も下がります。

クロールバジェットを最適化する方法7つ

クロールバジェットを最適化するには、以下7つの方法が有効です。

重複コンテンツを統合する
robots.txtで不要なページのクロールを制限する
404・410ステータスコードを正しく返す
リダイレクトチェーンを5回未満に抑える
XMLサイトマップを最新に保つ
ページの表示速度・Core Web Vitalsを改善する
内部リンク設計でクロール優先度をコントロールする

一つずつ詳しく見ていきましょう。

重複コンテンツを統合する

同一・類似コンテンツが複数URLに存在する場合は、1つのURLに統合しましょう。統合の方法は2つです。

canonicalタグ：複数URLを残しつつ、Googleに評価を集約させたいURLを指定する
301リダイレクト：不要なURLから正規URLへ恒久的に転送する

URLパラメータ違い・wwwの有無・httpとhttpsの混在・末尾スラッシュの有無など、技術的な要因による重複は、301リダイレクトで統合しましょう。

色違いやサイズ違いといった商品バリエーションのページは、canonicalで集約することをおすすめします。

robots.txtで不要なページのクロールを制限する

クロールさせる必要のないページは、robots.txtでクロール自体をブロックしましょう。具体的には以下などが挙げられます。

検索結果ページ、絞り込み条件付きURL
カート・購入完了・お問い合わせ完了などの動的ページ
会員専用ページ、管理画面

robots.txtでブロックすれば、Googlebotがそもそも到達しないため、無駄なクロールを防げます。

ただし、noindexタグはrobots.txtでブロックすると効かないため、インデックスから除外したいページにはrobots.txtではなくnoindexを使う必要があります。

404・410ステータスコードを正しく返す

削除済みのページには、404（Not Found）または410（Gone）を正しく返しましょう。

410は「永久に存在しない」という意味を持つため、Googleは410のページのクロールを404よりも早く中止します。そのため、完全に削除したページは410、一時的に存在しないだけのページは404、と使い分けることをおすすめします。

「ページが見つかりません」と表示しつつ200 OKを返しているソフト404ページも、本来の404または410を返すようサーバー設定を修正する必要があります。

Search Consoleの「ページ」レポートを開き、「ページがインデックスに登録されなかった理由」の一覧から「ソフト404」を選択すると、該当するURLを一覧で確認できます。

リダイレクトチェーンを5回未満に抑える

リダイレクトチェーンは、サイトリニューアルやドメイン移転を繰り返すうちに発生しがちです。

リダイレクトが多段になっていると、Googlebotは最終URLにたどり着くまでに複数回のリクエストを必要とし、クロールバジェットを浪費します。

「URL A → URL B → URL C」とリダイレクトが設定されている場合は、「URL A → URL C」へ直接リダイレクトするように書き換えましょう。

XMLサイトマップを最新に保つ

XMLサイトマップは、GoogleにクロールすべきURLと更新日を伝えるためのファイルです。最新の状態に保つことで、Googlebotが新規・更新ページを発見しやすくなります。

XMLサイトマップを作成する際は、各URLに<lastmod>タグで正確な更新日を記載することが重要です。サイトマップを自動生成している場合は、ページ更新時に<lastmod>が正しく更新される設定になっているか確認しましょう。

ページの表示速度・Core Web Vitalsを改善する

サーバー応答が速く、ページの読み込みが軽いサイトは、Googlebotがより多くのページをクロールできるようになります。

ページの表示速度やCore Web Vitalsを改善するには、画像の最適化（WebP化・遅延読み込み）、不要なJavaScriptやCSSの削減、サーバー応答時間（TTFB）の短縮、CDNの導入が有効です。

改善状況は、GoogleのPageSpeed Insightsで確認できます。Core Web Vitalsの各指標（LCP・INP・CLS）が「良好」と判定されることを目標にしましょう。

内部リンク設計でクロール優先度をコントロールする

Googlebotは内部リンクが多く集まっているページを重要なページと判断し、優先的にクロールします。

逆に言えば、内部リンクの設計次第でクロールの優先度を意図的にコントロールできます。

内部リンク設計において、押さえるべきポイントは以下の3つです。

トップページから3クリック以内に重要ページを配置する
カテゴリトップやタグページから、重要ページへ集中的にリンクを送る
どこからもリンクされていない、孤立ページをなくす

特に大規模サイトでは、トップページから少ないクリック数で各ページにたどり着けるよう構造を整えるだけで、クロール効率が大きく改善するケースがあります。

生成AI・LLMOクローラー時代のクロールバジェット

ChatGPTやPerplexity、Claudeなど生成AI検索サービスの普及により、Googlebot以外のAIクローラーがサイトを巡回するようになっています。

主要AIクローラーの種類と、AI検索時代に意識すべきクロール最適化の考え方について、詳しく解説します。

GPTBot・ClaudeBot・PerplexityBotなど各AIクローラーの動向

2026年5月時点で、押さえておくべき主要AIクローラーは次の通りです。

クローラー名	運営元	用途
GPTBot	OpenAI	ChatGPTのモデル学習用
OAI-SearchBot	OpenAI	ChatGPTの検索機能用
ChatGPT-User	OpenAI	ChatGPTがユーザー指示でページを取得する用
ClaudeBot	Anthropic	Claudeのモデル学習用
Claude-SearchBot	Anthropic	Claudeの検索機能用
PerplexityBot	Perplexity AI	Perplexityの検索・回答生成用
Google-Extended	Google	Gemini、Vertex AIの学習データ制御用
Bingbot	Microsoft	Bing検索・Microsoft Copilotの回答生成用
CCBot	Common Crawl	多くのAI企業が利用する共通データセット

AIクローラーは目的別に「学習用」と「検索・回答生成用」の2系統に分かれています。両者は別のクローラーとして動くため、robots.txtで個別に制御できます。

AI検索エンジン向けにクロール最適化で意識すべきこと

AI検索エンジンに自社コンテンツを引用してもらいたい場合、検索・回答生成用クローラーは許可するのが基本です。

具体的には、OAI-SearchBot、Claude-SearchBot、PerplexityBotなどをrobots.txtでブロックしないようにします。

一方、学習用クローラーは自社の方針に応じて許可・拒否を判断する必要があります。判断軸は次の通りです。

コンテンツをAI学習に活用してもらい、認知向上を狙いたい → 学習用も許可
コンテンツの著作権保護を優先したい → 学習用は拒否、検索用のみ許可

大量のAIクローラーが頻繁にアクセスしてサーバーが重くなっている場合は、不要なAIクローラーをrobots.txtでブロックすることで負荷を軽減できます。

LLMO対策とクロール最適化の関係

LLMO（Large Language Model Optimization）は、生成AIに自社コンテンツを正確に理解・引用してもらうための最適化施策です。

クロール最適化とLLMOは別の概念ですが、「AIクローラーがコンテンツに到達できる状態」を作るといった点においては密接に繋がりあっています。

どんなに優れたLLMO施策を実装しても、AIクローラーがサイトに到達できなければ意味がありません。本記事で解説したクロール最適化の施策は、LLMO対策の土台としてもそのまま機能します。

よくある質問

クロールバジェットについて、よくある質問に回答していきます。

クロールバジェットに上限はある？

クロールバジェットの明確な上限値は、Googleからは公表されていません。

サイトごとに「クロールの上限」と「クロールの需要」の掛け合わせで動的に決まる仕組みのため、固定の数値は存在しないとされています。

nofollowはクロールバジェットの節約になる？

nofollowを設定しても、クロールバジェットの節約にはならない可能性が高いです。

Google Search Centralでは、「クロールされたURLはすべてクロールバジェットに影響します。あるページでURLをnofollowとマークしても、サイト内の別ページや他のWebページ上で同じリンクがnofollowとマークされていなければ、依然としてクロールされる可能性があります」と説明されています。

つまり、自サイト内の特定のリンクにnofollowを設定しても、他のページから通常リンクとして辿られればクロールされてしまうため、nofollowを付与してもクロールバジェットの節約にはなりません。

クロール自体を防ぎたい場合は、nofollowではなくrobots.txtのDisallowを使うのが確実です。