robots.txtの書き方まとめ｜SEOで失敗しない設定例

robots.txtは、検索エンジンのクローラーに「どこまで巡回してよいか」を伝えるための、サイト運用の基本設定です。ところが、書き方を少し誤るだけで、重要ページがクロールされにくくなったり、逆に巡回してほしくないページにリソースが割かれたりする可能性があります。近年は、クロールの効率をどう高めるか、いわゆるクロール最適化がより重視される傾向があり、robots.txtの役割も見直されています。

この記事では、robots.txtの基礎から、SEOで失敗しないための設計手順、よくある設定ミス、そして実務でそのまま使える設定例までをまとめます。読み終える頃には、「何をブロックし、何を通し、どこをサイトマップで補助するか」を自信を持って判断できる状態を目指せます。

SEOで失敗しないrobots.txtは「クロール最適化」と「誤ブロック防止」が要点です

robots.txtの書き方で最も重要なのは、クロールバジェットを価値の高いページに集中させることと、評価に必要なファイル（CSSやJavaScriptなど）を誤って遮断しないことです。さらに、robots.txtは「クロールの制御」であり「インデックスの禁止」を保証する仕組みではないため、インデックスさせたくないページはnoindexなど別手段と組み合わせる必要があります。

つまり、robots.txtは「見せたくないものを隠す道具」というより、検索エンジンに対して「巡回の優先順位を整える交通整理」として扱うのが安全です。そのうえで、サイトマップ（Sitemapディレクティブ）と連携し、クロールしてほしいURL群を明示する設計にすると、運用上のブレが小さくなります。

robots.txtが重要とされる理由はクロールバジェットとモバイル評価にあります

robots.txtはクローラーへの「巡回ルール」を伝えるファイルです

robots.txtは、検索エンジンのクローラーに対して、サイト内のどのパスをクロールしてよいか、あるいは制限するかを指示するテキストファイルです。一般的にサーバーのルートディレクトリに置かれ、クローラーはサイトを巡回する前にまずrobots.txtを確認するとされています。

ここで重要なのは、robots.txtが扱う対象は「クロール」である点です。クロールを止める指示（Disallow）を出しても、外部や内部からリンクされているURLは、状況によって検索結果に露出する可能性があると言われています。したがって、機密情報の保護やインデックス完全拒否をrobots.txtだけに依存するのは避けたほうがよいと考えられます。

2025年の実務では「クロール最適化」が強く意識されています

近年のSEO実務では、robots.txtは単なるアクセス制限ではなく、クローラー最適化とクロールバジェット効率化の観点で重要性が増しているとされています。クロールバジェットとは、検索エンジンが特定サイトに割り当てるクロールの時間やリソースの総量を指します。大規模サイトだけの話に見えますが、ECサイトや求人サイト、メディアサイトのようにURLが増えやすい構造では、比較的小規模でも影響が出る可能性があります。

価値の低いページ（絞り込み検索結果、並び替え、重複に近いURLなど）にクローラーが時間を使うと、重要な商品ページや記事ページの巡回頻度が下がることがあります。そこでrobots.txtで「巡回してほしくない領域」を整理し、サイトマップで「巡回してほしいURL」を補助する、という分担が現実的です。

モバイルファーストの評価環境では、ブロックの影響が大きくなります

検索エンジンはモバイルファーストインデックスを採用しているため、モバイルでの見え方や読み込みに関わる要素を、クローラーが正しく取得できることが重要です。ここで問題になりやすいのが、robots.txtでCSSやJavaScriptをブロックしてしまうケースです。表示や挙動の再現に必要なファイルが取得できないと、検索エンジンがページを正しく評価できなくなる可能性があります。

また、レスポンシブではなくモバイル用URLとデスクトップ用URLを分けているサイトでは、モバイル側・デスクトップ側それぞれの構成に合わせた設計が求められます。AMPページを提供している場合も、AMP用クローラーの扱いを含めて全体設計として矛盾がないか確認することが大切です。

「Disallow＝検索結果に出ない」ではない点が最大の落とし穴です

robots.txtのDisallowは、クロールを拒否する指示です。一方で、インデックスを確実に防ぐ目的でDisallowを使うのは推奨されない、というのが多くのSEO実務で共有されている注意点です。他ページからリンクされている場合などに、URLだけが検索結果に出る可能性があると言われています。

そのため、絶対にインデックスさせたくないページは、HTMLのhead内にnoindexメタタグを入れる、またはHTTPヘッダーでnoindexを返すなど、別の手段を取るのが基本です。つまり、robots.txtは「巡回の交通整理」、noindexは「掲載可否の判断」という役割分担で考えると整理しやすくなります。

そのまま使えるrobots.txt設定例と、意図の読み解き方

まずは最小構成：サイトマップを明示し、余計なブロックをしない

robots.txtは、書けば書くほど良いというものではありません。運用初期や小規模サイトでは、まず「サイトマップの場所を伝える」だけでも十分に効果が見込めることがあります。特に、クローラーに対して重要URL群を伝える意味で、Sitemapディレクティブの併記は実務的です。

User-agent: *
Disallow:

Sitemap: https://example.com/sitemap.xml

この例では、全クローラーに対して特段のクロール制限をかけず、サイトマップだけを案内しています。「まずは安全に始める」という意味で、トラブルが少ない構成です。なお、サイトマップを複数に分割している場合は、複数行で記載する運用も一般的です。

管理画面・ログインなど、価値が低くリスクが高い領域をブロックする

robots.txtで制限を検討すべきページとして、管理画面やログインページ、テスト環境、決済プロセスなどが挙げられます。これらは検索流入の価値が低い一方で、クロールされると無駄な巡回が増えたり、URLが検索結果に露出して誤解を生んだりする可能性があります。

User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /mypage/
Disallow: /cart/
Disallow: /checkout/

Sitemap: https://example.com/sitemap.xml

この例は「ユーザーの行動導線として重要だが、検索結果に出す意義が薄い領域」を抑えています。特にECでは、カートや決済はクロールされても評価対象としての意味が薄いケースが多いため、クロールバジェットの観点でも整理しやすい領域です。

ただし、ここで誤解しやすいのは「Disallowしたから検索結果に出ない」と思い込む点です。外部リンクなどでURLが知られている場合、露出が残る可能性があるため、検索結果に出したくないならnoindexなども検討する必要があります。

検索結果ページやパラメータURLなど、重複しやすい領域を抑える

サイト内検索の結果一覧や、絞り込み・並び替えで大量に生成されるURLは、内容が近く重複コンテンツに見えやすいと言われています。こうしたURLを無制限にクロールさせると、重要ページの巡回頻度が落ちる可能性があります。

User-agent: *
Disallow: /search/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*&sort=
Disallow: /*&filter=

Sitemap: https://example.com/sitemap.xml

ワイルドカード（*）を使う場合は、意図しないURLまで巻き込むリスクがあります。特にパラメータはサイトごとに命名規則が異なるため、実際に生成されているURLを洗い出したうえで慎重に設計するのが安全です。専門家の解説でも、パスの記述やワイルドカードの扱いは設定ミスが起きやすいポイントとして注意喚起されています。

「基本はブロックしない」：CSSとJavaScriptは原則として許可する

robots.txtでよくある失敗の一つが、/assets/ や /static/ などの配下をまとめてブロックし、結果としてCSSやJavaScriptまで取得不可にしてしまうケースです。検索エンジンはレンダリング（表示の再現）を通じてページを理解するため、表示に必要なファイルがブロックされると評価が不安定になる可能性があります。

もし過去の慣習やセキュリティ上の理由で「静的ファイル群をまとめて制限している」場合は、次のようにAllowで必要ファイルを明示する設計が検討されます。

User-agent: *
Disallow: /private/
Disallow: /assets/

Allow: /assets/css/
Allow: /assets/js/

Sitemap: https://example.com/sitemap.xml

ただし、そもそも/assets/ をブロックする必要があるのかは再検討の余地があります。クロール最適化の観点でも、重要なのは「価値の低いページを抑える」ことであり、表示に必要なファイルまで抑えることではないためです。

ステージング環境はrobots.txtだけに頼らず、アクセス制御も併用する

テスト環境やステージング環境は、robots.txtでDisallowする対象としてよく挙げられます。ただし、robots.txtは公開情報であり、URLを知っている人が見られる可能性がある点は変わりません。したがって、ステージングはベーシック認証やIP制限など、サーバー側のアクセス制御も併用するのが一般的です。

User-agent: *
Disallow: /

この例は「全クロール拒否」です。便利ではありますが、本番環境に誤って置くとサイト全体のクロールが止まる可能性があります。運用フローとして、デプロイ時のチェック項目に入れる、サーチコンソールで異常を検知できる体制にする、といった管理が重要です。

運用で差がつく設計手順とチェックリスト

手順1：クロールさせる価値があるURL群を先に定義します

robots.txtを考えるとき、先に「ブロックしたいもの」を列挙しがちです。しかし、クロール最適化の観点では、まず「クロールしてほしい重要ページ」を定義し、サイトマップで明示する流れが安定します。例えば、商品詳細、カテゴリ、記事詳細、固定ページなど、検索流入の起点になるページが中心です。

そのうえで、重要ページの発見経路が内部リンクとサイトマップで十分に用意されているかを確認し、余計なURL生成（パラメータの乱立など）がないかを見直すと、robots.txtの変更量自体を減らせる可能性があります。

手順2：クロールを抑えるべき領域を「種類」で整理します

制限すべきページは、サイトによってURLが異なりますが、種類としては共通点があります。代表例は、管理画面やログイン、検索結果一覧、プライベートな画像やドキュメント、テスト環境、カートや決済プロセスなどです。これらを「なぜ抑えるのか」という理由とセットで整理すると、担当者が変わっても運用がぶれにくくなります。

また、重複が発生しやすいURLは、robots.txtで抑える以外にも、canonicalの設計やパラメータ設計の見直しなど、別の対策が適する場合があります。状況に応じて、最も事故が少ない手段を選ぶことが大切です。

手順3：noindexとrobots.txtの役割分担を明確にします

繰り返しになりますが、Disallowはインデックス防止の保証ではありません。検索結果に出したくないページがある場合は、noindexの採用を検討します。例えば、会員向けページ、サンクスページ、内部施策の検証ページなどは、noindexが適することがあります。

一方で、noindexを効かせるには、クローラーがページをクロールできる必要があります。つまり、noindexを入れたページをrobots.txtでDisallowすると、noindexが読み取られないという矛盾が起きやすくなります。ここは実務で混乱しやすいポイントなので、設計時に「クロールは許可するがインデックスはさせない」のか、「クロール自体を抑える」のかを決めておくと安全です。

手順4：モバイル・デスクトップ・AMPの構成差を確認します

モバイルファーストインデックスの前提では、モバイル側で必要なリソースが取得できることが重要です。レスポンシブであれば差分は出にくい一方、m.example.comのような別ドメイン運用や、動的配信をしている場合は、robots.txtの適用範囲やURL体系が複雑になります。

AMPを提供している場合も、AMPページのクロールや、正規ページとの関係が崩れていないかを確認する必要があります。設定の正解はサイト設計次第のため、変更前後でサーチコンソールなどを使って確認する運用が現実的です。

手順5：更新後はサーチコンソールで検証し、定期的に見直します

robots.txtは一度作って終わりではなく、サイト構造やURL設計の変更に応じて更新が必要です。特に、CMSのアップデート、EC機能追加、カテゴリ改編などでURLが増減すると、意図しないクロールが発生する可能性があります。

専門家の実務解説でも、robots.txtは定期的な更新と検証が重要とされています。サーチコンソールでクロール状況やブロック状況を確認し、想定外にブロックされていないか、逆に不要URLが大量に巡回されていないかを点検すると、トラブルの早期発見につながります。

よくある設定ミスと、起きやすいトラブルの回避策

重要ディレクトリを丸ごとDisallowしてしまう

「この配下は触らないほうがよさそう」という感覚で、/wp-content/ や /assets/ などを丸ごとDisallowする例は少なくありません。しかし、その中にCSSやJavaScriptが含まれていると、レンダリング評価に影響が出る可能性があります。回避策としては、原則ブロックしない、どうしてもブロックするならAllowで必要パスを戻す、という考え方が現実的です。

ワイルドカードで想定外のURLまで止めてしまう

パラメータ対策で「とりあえず *? を止める」といった広い指定をすると、重要ページの計測用パラメータや、正規化済みのURLまで巻き込む可能性があります。ワイルドカードは便利ですが、対象URLをログや実URL一覧で確認し、段階的に適用するのが安全です。

noindexにしたいページをDisallowしてしまう

検索結果に出したくないページにnoindexを入れているのに、robots.txtでDisallowしてしまうと、クローラーがnoindexを読み取れず、意図が反映されにくい可能性があります。ここは「クロールさせる／させない」と「インデックスさせる／させない」を混同しないことが重要です。

ステージングの「Disallow: /」を本番に残してしまう

全体ブロックは強力ですが、誤って本番に混入すると影響が大きくなります。運用面の回避策としては、デプロイ前チェック、環境ごとのテンプレート分離、サーチコンソールでの監視などが考えられます。技術と運用の両面で事故を減らす設計が必要です。

robots.txtの書き方まとめ｜SEOで失敗しない設定例

robots.txtは、検索エンジンのクローラーに対してクロールの可否を指示するファイルであり、2025年時点ではクロールバジェットの最適化という観点で重要性が高まっています。設計の要点は、価値の低いページの巡回を抑えつつ、CSSやJavaScriptなど評価に必要なリソースをブロックしないことです。

また、Disallowはインデックス防止を保証するものではないため、検索結果に出したくないページにはnoindexを使うなど、役割分担を明確にする必要があります。さらに、サイトマップをrobots.txtで明示し、クロールしてほしいURL群を補助する設計にすると、運用が安定しやすくなります。