Yandexのrobotstxtの例。 robotstxtファイルを設定するための推奨事項。 ディレクティブ「ホスト:」および「サイトマップ:」

このページのクイックナビゲーション:

現代の現実では、Runetではrobots.txtというファイルがないと自尊心のあるサイトはできません-インデックス作成を禁止するものが何もない場合でも(ほとんどすべてのサイトに技術ページがあり、インデックス作成を閉じる必要がある重複コンテンツがあります)、少なくとも、Yandexの場合はwwwを使用し、wwwを使用せずにディレクティブを登録することは間違いなく価値があります。これは、以下で説明するrobots.txtを作成するためのルールです。

robots.txtとは何ですか?

この名前のファイルは、サイトが検索エンジンにインデックス作成命令を提供できるように、W3Cコンソーシアムがそのような標準を導入することを決定した1994年からの歴史を持っています。

この名前のファイルは、サイトのルートディレクトリに保存する必要があります。他のフォルダに配置することはできません。

このファイルは次の機能を実行します。

  1. ページまたはページのグループのインデックス作成を禁止します
  2. 任意のページまたはページのグループにインデックスを付けることができます
  3. Yandexロボットに、どのサイトミラーがメインミラーであるかを通知します(wwwありまたはwwwなし)
  4. サイトマップファイルの場所を示します

4つのポイントはすべて、サイトの検索エンジン最適化にとって非常に重要です。 インデックス作成の禁止により、重複するコンテンツを含むページのインデックス作成をブロックできます。たとえば、タグのページ、アーカイブ、検索結果、印刷​​版のページなどです。 重複コンテンツの存在(数文の量ではあるが、同じテキストが2ページ以上に存在する場合)は、検索エンジンのランキングでサイトにとってマイナスになるため、重複をできるだけ少なくする必要があります。

デフォルトではすべてのページがすでに索引付けに使用できるため、allowディレクティブには独立した意味はありません。 これは、disallowと連携して機能します。たとえば、一部のセクションが検索エンジンから完全に閉じられているが、そのセクションの1つまたは1つのページを開きたい場合です。

サイトのメインミラーを指すことも、最適化において最も重要な要素の1つです。検索エンジンは、特に指示がない限り、サイトwww.yoursite.ruとyoursite.ruを2つの異なるリソースと見なします。 その結果、コンテンツが2倍になり、重複が発生し、外部リンクの強度が低下します(外部リンクは、wwwありとwwwなしの両方に配置できます)。その結果、検索でのランキングが低くなる可能性があります。結果。

Googleの場合、メインミラーはウェブマスターツール(http://www.google.ru/webmasters/)で記述されていますが、Yandexの場合、これらの手順は同じrobots.txtでのみ記述できます。

サイトマップ(たとえば、sitemap.xml)でxmlファイルを指すと、検索エンジンはこのファイルを見つけることができます。

ユーザーエージェントルール

この場合のユーザーエージェントは検索エンジンです。 指示を書くときは、それらがすべての検索エンジンで機能するか(その後、アスタリスクが付けられます-*)、またはそれらが別の検索エンジン(YandexやGoogleなど)用に設計されているかどうかを示す必要があります。

すべてのロボットを参照してユーザーエージェントを設定するには、ファイルに次の行を書き込みます。

ユーザーエージェント: *

Yandexの場合:

ユーザーエージェント:Yandex

Googleの場合:

ユーザーエージェント:GoogleBot

禁止および許可を指定するためのルール

まず、robots.txtファイルには、有効にするために少なくとも1つのdisallowディレクティブが含まれている必要があることに注意してください。 次に、これらのディレクティブを特定の例に適用することを検討します。

このコードを使用すると、サイトのすべてのページのインデックスを作成できます。

ユーザーエージェント:*禁止:

逆に、このコードでは、すべてのページが閉じられます。

ユーザーエージェント:*禁止:/

フォルダと呼ばれる特定のディレクトリのインデックス作成を禁止するには、次のように指定します。

ユーザーエージェント:*許可しない:/ folder

アスタリスクを使用して、任意の名前に置き換えることもできます。

ユーザーエージェント:*許可しない:*。php

重要:アスタリスクはファイル名全体を置き換えます。つまり、file * .phpを指定することはできず、*。phpのみを指定できます(ただし、これを回避するために、拡張子が.phpのすべてのページは禁止されます。特定のページアドレスを指定できます)。 。

上記のように、allowディレクティブは、disallowで例外を作成するために使用されます(そうでない場合、ページはデフォルトですでに開いているため、意味がありません)。

たとえば、アーカイブフォルダ内のページのインデックス作成を禁止しますが、このディレクトリのindex.htmlページは開いたままにしておきます。

許可:/archive/index.html禁止:/ archive /

ホストとサイトマップを指定する

ホストはサイトのメインミラーです(つまり、ドメイン名にwwwを加えたもの、またはこのプレフィックスのないドメイン名)。 ホストはYandexロボットに対してのみ指定されます(少なくとも1つの禁止コマンドが必要です)。

ホストrobots.txtを指定するには、次のエントリが含まれている必要があります。

ユーザーエージェント:Yandex Disallow:ホスト:www.yoursite.ru

サイトマップについては、robots.txtで、ドメイン名を示す対応するファイルへのフルパスを書き込むだけでサイトマップが示されます。

サイトマップ:http://yoursite.ru/sitemap.xml

WordPressのサイトマップを作成する方法が書かれています。

WordPressrobots.txtの例

WordPressの場合、インデックス作成のためにすべてのテクニカルディレクトリ(wp-admin、wp-includesなど)を閉じるように指示を指定する必要があります。また、タグ、RSSファイル、コメント、検索によって作成されたページの複製も指定する必要があります。

ワードプレスのrobots.txtの例として、私たちのサイトからファイルを取得できます。

User-agent:Yandex Disallow:/ wp-admin Disallow:/ wp-includes Disallow:/wp-login.php Disallow:/wp-register.php Disallow:/xmlrpc.php Disallow:/ search Disallow:* / trackback Disallow: * / feed / Disallow:* / feed Disallow:* / reviews / Disallow:/?feed = Disallow:/?s = Disallow:* / page / * Disallow:* / comment Disallow:* / tag / * Disallow:* / attachment / *許可:/ wp-content / uploads /ホスト:www..php許可しない:/wp-register.php許可しない:/xmlrpc.php許可しない:/ search許可しない:* / trackback許可しない:* / feed /許可しない:* / feed Disallow:* / projects / Disallow:/?feed = Disallow:/?s = Disallow:* / page / * Disallow:* / comment Disallow:* / tag / * Disallow:* / attachment / * Allow:/ wp -content / uploads / User-agent:* Disallow:/ wp-admin Disallow:/ wp-includes Disallow:/wp-login.php Disallow:/wp-register.php Disallow:/xmlrpc.php Disallow:/ search Disallow: * / trackback Disallow:* / feed / Disallow:* / feed Disallow:* / reviews / Disallow:/?feed = Disallow:/?s = Disallow:* / page / * Disallow:* / comment Disallow:* / tag / *Disa llow:* / attachment / *許可:/ wp-content / uploads /サイトマップ:https://www..xml

robots.txtファイルは、当社のWebサイトからダウンロードできます。

この記事を読んだ後でも質問がある場合は、コメントで質問してください。

1) 検索ロボットとは何ですか?
2) robots.txtとは何ですか?
3) robots.txtを作成する方法は?
4) このファイルには何を、なぜ書き込むことができますか?
5) ロボット名の例
6) 完成したrobots.txtの例
7) ファイルが機能しているかどうかを確認するにはどうすればよいですか?

1.検索ロボットとは何ですか?

ロボット (英語クローラー)インデックスを作成できるURLのリストを保持し、それらに一致するドキュメントを定期的にダウンロードします。 ロボットがドキュメントの解析中に新しいリンクを見つけると、そのリンクをリストに追加します。 したがって、リンクがあるドキュメントまたはサイトは、ロボットによって、したがってYandex検索によって見つけることができます。

2. robots.txtとは何ですか?

検索ロボットは、最初にrobots.txtファイルでサイトを検索します。 たとえば、インデックス作成から非表示にしたいディレクトリやコンテンツなどがある場合(検索エンジンはそれらに関する情報を提供しませんでした。たとえば、管理パネル、他のページパネル)、慎重に行う必要があります。このファイルを操作するための手順を調べてください。

robots.txt- これ テキストファイル(.txt)、これはサイトのルート(ルートディレクトリ)にあります。 検索ロボットの説明が含まれています。 これらの手順では、サイトの特定のセクションまたはページのインデックス作成を禁止したり、ドメインの正しい「ミラーリング」を示したり、サーバーからドキュメントをダウンロードする間の特定の時間間隔を監視するように検索ロボットに推奨したりする場合があります。

3. robots.txtを作成するにはどうすればよいですか?

robots.txtの作成はとても簡単です。 メモ帳(メモ帳)などの通常のテキストエディタ(または右クリック-作成-テキストドキュメント)に移動します。 次に、テキストファイルを作成し、名前をrobots.txtに変更します。

4. robots.txtファイルには何を、なぜ書き込むことができますか?

検索エンジンにコマンドを指定する前に、どのボットにアドレス指定するかを決定する必要があります。 このためのコマンドがあります ユーザーエージェント
以下に例を示します。

User-agent:*#この行の後に書かれたコマンドはすべての検索ロボットに宛てられます
ユーザーエージェント:YandexBot#メインのYandexインデックスロボットへの呼び出し
ユーザーエージェント:Googlebot#メインのGoogleインデックスロボットへの呼び出し

インデックス作成の許可と無効化
インデックス作成を有効または無効にするための2つの対応するコマンドがあります- 許可する(可能性あり)および 禁止する(禁止されています)。

ユーザーエージェント: *
禁止:/ adminka /#すべてのロボットがadminkaディレクトリにインデックスを付けることを禁止します。adminkaディレクトリには、おそらく管理パネルが含まれています。

ユーザーエージェント:YandexBot#以下のコマンドはYandexに送信されます
禁止:/#Yandexロボットによるサイト全体のインデックス作成を禁止する

ユーザーエージェント:Googlebot#以下のコマンドはGoogleを呼び出します
許可:/ images#画像ディレクトリのすべてのコンテンツのインデックス作成を許可
禁止:/#他のすべてを禁止

順序は関係ありません

ユーザーエージェント: *
許可:/ images
禁止:/

ユーザーエージェント: *
禁止:/
許可:/ images
#あちこちでファイルのインデックス作成が許可されています
#「/images」で始まる

サイトマップディレクティブ
このコマンドは、サイトマップのアドレスを指定します。

サイトマップ:http://yoursite.ru/structure/my_sitemaps.xml#サイトマップのアドレスを指定します

ホストディレクティブ
このコマンドはファイルの最後に挿入され、メインミラーにマークを付けます
1)ファイルの最後に書かれている
2)一度だけ表示されます。 それ以外の場合は、最初の行のみが受け入れられます
3)許可または不許可の後に指定

ホスト:www.yoursite.ru#サイトのミラー

#www.yoursite.ruがメインサイトのミラーサイトである場合、
すべてのミラーサイトの#robots.txtは次のようになります
ユーザーエージェント: *
禁止:/ images
禁止:/ include
ホスト:www.yoursite.ru

#Googleはデフォルトでホストを無視します。これを行う必要があります
ユーザーエージェント:*#すべてにインデックスを付ける
禁止:/ admin /#管理者インデックスを無効にする
ホスト:www.mainsite.ru#メインミラーを指定
User-Agent:Googlebot#コマンドを今すぐGoogleに
禁止:/ admin /#Googleでは禁止

5.ロボット名の例

Yandexロボット
Yandexには、さまざまなタスクを解決するいくつかのタイプのロボットがあります。1つは画像のインデックス作成、その他はブログデータを収集するためのrssデータのインデックス作成、その他はマルチメディアデータのインデックス作成を担当します。 最も重要な - YandexBot、サイトの共通データベース(ヘッダー、リンク、テキストなど)をコンパイルするために、サイトにインデックスを付けます。 クイックインデックス(ニュースインデックスなど)用のロボットもあります。

YandexBot-メインのインデックスロボット。
YandexMedia-マルチメディアデータにインデックスを付けるロボット。
YandexImages--Yandex.Picturesインデクサー;
YandexCatalog--「タッピング」Yandex.Catalog、カタログ内のアクセスできないサイトの公開から一時的に削除するために使用されます。
YandexDirect--Yandex.Directロボット、robots.txtを特別な方法で解釈します。
YandexBlogs-投稿とコメントにインデックスを付けるブログ検索ロボット。
YandexNews--Yandex.Newsロボット;
YandexPagechecker--マイクロデータバリデーター;
YandexMetrika--Yandex.Metricaロボット;
YandexMarket--Yandex.Marketロボット;
YandexCalendar--Yandex.Calendarロボット。

6.完成したrobots.txtの例

実際に完成したファイルの例になりました。 上記の例の後、すべてが明確になることを願っています。

ユーザーエージェント: *
禁止:/ admin /
禁止:/ cache /
禁止:/ components /

ユーザーエージェント:Yandex
禁止:/ admin /
禁止:/ cache /
禁止:/ components /
禁止:/ images /
禁止:/ include /

サイトマップ:http://yoursite.ru/structure/my_sitemaps.xml

これは、特定のサイトにインデックスを付けるための明確な指示を含むテキストファイル(.txt形式のドキュメント)です。 言い換えると、このファイルは、Webリソースのどのページにインデックスを付ける必要があり、どのページにインデックスを付ける必要がないかを検索エンジンに通知します。

なぜサイトの一部のコンテンツのインデックス作成を禁止するのでしょうか。 たとえば、検索ロボットに、ページ数が多いほど良いという原則に基づいて、すべてを無差別にインデックス付けさせます。 CEOのアマチュアだけがそのように主張することができます。

サイトを構成するすべてのコンテンツが検索ロボットに必要なわけではありません。 システムファイルがあり、重複ページがあり、見出しがあります キーワードまた、インデックスを作成する必要がまったくないものは他にもたくさんあります。 それ以外の場合、以下の状況は除外されません。

あなたのサイトに来た検索ロボットは、まず悪名高いrobots.txtを見つけようとします。 このファイルが彼によって見つからないか、見つかったが、同時に正しくコンパイルされていない場合(必要な禁止事項なしで)、検索エンジンの「メッセンジャー」は独自の裁量でサイトの調査を開始します。

そのような研究の過程で、それはすべてに索引を付けます、そしてそれが最初に検索に入力される必要があるそれらのページ(新しい記事、レビュー、写真レポートなど)から始まるという事実からはほど遠いです。 当然、この場合、新しいサイトのインデックス作成が多少遅れる可能性があります。

このようなうらやましい運命を回避するために、ウェブマスターは正しいrobots.txtファイルを時間内に作成する必要があります。

「User-agent:」は主なrobots.txtディレクティブです

実際には、ディレクティブ(コマンド)はrobots.txtに特別な用語を使用して記述されており、その主な用語はディレクティブと見なすことができます。 ユーザーエージェント: "。 後者は、検索ロボットを指定するために使用されます。検索ロボットには、将来特定の指示が与えられます。 例えば:

  • ユーザーエージェント:Googlebot-この基本的なディレクティブの後に続くすべてのコマンドは、Google検索エンジン(そのインデックス作成ロボット)のみに関係します。
  • ユーザーエージェント:Yandex-この場合の宛先は、国内の検索エンジンYandexです。

robots.txtファイルでは、他のすべての検索エンジンを組み合わせて参照できます。 この場合のコマンドは次のようになります。 ユーザーエージェント: *。 特別な記号「*」の下では、「任意のテキスト」を理解するのが通例です。 私たちの場合-Yandexを除く他の検索エンジン。 ちなみに、Googleは、個人的に連絡しない場合は、このディレクティブを個人的にも受け取ります。

コマンド「Disallow:」-robots.txtでのインデックス作成の禁止

検索エンジン宛てのメインの「User-agent:」ディレクティブの後に、特定のコマンドを続けることができます。 それらの中で、最も一般的なものは指令と見なすことができます " 禁止: "。 このコマンドを使用すると、検索ロボットがWebリソース全体またはその一部にインデックスを付けることを禁止できます。 それはすべて、与えられたディレクティブがどの拡張子を持つかによって異なります。 例を考えてみましょう。

ユーザーエージェント:Yandex Disallow:/

robots.txtファイルにこの種のエントリがあるということは、禁止記号「/」が見事に孤立しており、説明がないため、Yandex検索ロボットがこのサイトのインデックスを作成できないことを意味します。

ユーザーエージェント:Yandex Disallow:/ wp-admin

ご覧のとおり、今回は説明があり、システムフォルダに関するものです。 wp-admin . つまり、このコマンド(指定されたパス)を使用するインデックス作成ロボットは、このフォルダー全体のインデックス作成を拒否します。

ユーザーエージェント:Yandex Disallow:/ wp-content / themes

Yandexロボットへのそのような表示は、大きなカテゴリへの承認を意味します。 wp-content '、'を除くすべてのコンテンツにインデックスを付けることができます' テーマ ».

robots.txtテキストドキュメントの「禁止されている」機能をさらに詳しく見ていきましょう。

ユーザーエージェント:Yandex Disallow:/ index $

このコマンドでは、例から次のように、別の特殊記号「$」が使用されます。 その使用により、一連の文字が含まれているリンク内のページにインデックスを付けることは不可能であることがロボットに通知されます。 索引 "。 インデックス作成中 別のファイル同じ名前のサイト index.php »ロボットは禁止されていません。 したがって、記号「$」は、索引付けを禁止するための選択的なアプローチが必要な場合に使用されます。

また、robots.txtファイルで、特定の文字が出現するリソースの個々のページのインデックス作成を無効にすることができます。 次のようになります。

ユーザーエージェント:Yandex Disallow:*&*

このコマンドは、URLに「&」記号が含まれているWebサイトのすべてのページにインデックスを付けないようにYandex検索ロボットに指示します。 さらに、リンク内のこの記号は、他の文字の間にある必要があります。 ただし、別の状況が発生する可能性があります。

ユーザーエージェント:Yandex Disallow:*&

ここで、インデックス作成の禁止は、リンクが「&」で終わるすべてのページに適用されます。

インデックス作成が禁止されている場合 システムファイルサイトに質問がない場合は、リソースの個々のページのインデックス作成の禁止に関してこのような問題が発生する可能性があります。 なぜこれが原則として必要なのですか? 経験豊富なウェブマスターは、この点に関して多くの考慮事項があるかもしれませんが、主なものは、検索で重複するページを取り除く必要があることです。 「Disallow:」コマンドとグループを使用 特殊文字、上記で説明したように、「不要な」ページを処理するのは非常に簡単です。

「許可:」コマンド-robots.txtでのインデックス作成権限

前のディレクティブの対蹠はコマンドと見なすことができます" 許可する: "。 同じ明確化要素を使用しますが、robots.txtファイルでこのコマンドを使用すると、インデックス作成ロボットが必要なサイト要素を検索ベースに追加できるようになります。 これを証明する別の例を次に示します。

ユーザーエージェント:Yandex許可:/ wp-admin

何らかの理由で、ウェブマスターは考えを変え、robots.txtを適切に調整しました。 結果として、これからはフォルダの内容 wp-admin Yandexによるインデックス作成が正式に許可されています。

「Allow:」コマンドが存在するという事実にもかかわらず、実際にはあまり頻繁には使用されません。 概して、それは自動的に適用されるので、それの必要はありません。 サイト所有者は、「Disallow:」ディレクティブを使用して、そのコンテンツのいずれかがインデックスに登録されるのを禁止するだけで十分です。 その後、robots.txtファイルで禁止されていないリソースの他のすべてのコンテンツは、インデックスを作成できるものとして検索ロボットによって認識されます。 すべては法学のようです:「法律で禁止されていないものはすべて許可されます。」

ディレクティブ「ホスト:」および「サイトマップ:」

コマンド「 亭主: " と " サイトマップ: "。 1つ目は、Yandex専用であり、どのサイトミラー(wwwの有無にかかわらず)をメインミラーと見なす必要があるかを示します。 サンプルサイトは次のようになります。

ユーザーエージェント:Yandexホスト:ウェブサイト

ユーザーエージェント:Yandexホスト:www.site

このコマンドを使用すると、サイトコンテンツの不要な重複も回避できます。

次に、ディレクティブ サイトマップ: 」は、インデックス作成ロボットに、いわゆるサイトマップファイルへの正しいパスを示します。 sitemap.xml sitemap.xml.gz (CMS WordPressの場合)。 架空の例は次のとおりです。

ユーザーエージェント:*サイトマップ:http://site/sitemap.xmlサイトマップ:http://site/sitemap.xml.gz

このコマンドをrobots.txtファイルに指定すると、検索ロボットがサイトマップのインデックスをすばやく作成するのに役立ちます。 これにより、Webリソースページを検索結果に取り込むプロセスも高速化されます。

robots.txtファイルの準備ができました-次は何ですか?

あなたが初心者のウェブマスターとして、私たちが上で与えたすべての情報をマスターしたと仮定しましょう。 後で何をしますか? 作成 テキストドキュメントあなたのサイトのrobots.txt。 このために必要なもの:

  • 利用する テキストエディタ(メモ帳など)必要なrobots.txtを作成します。
  • たとえば、このYandexサービスを使用して、作成されたドキュメントの正確性を確認します。
  • FTPクライアントを使用して、完成したファイルをサイトのルートフォルダーにアップロードします(WordPressの状況では、通常、Public_htmlシステムフォルダーについて話します)。

はい、ほとんど忘れました。 初心者のウェブマスターは、間違いなく、自分自身を実験する前に、最初に見てみたいと思うでしょう 既製の例 与えられたファイル他の人のパフォーマンスで。 これ以上簡単なことはありません。 これを行うには、ブラウザのアドレスバーに次のように入力します site.ru/robots.txt 。 「site.ru」の代わりに、関心のあるリソースの名前。 とすべて。

幸せな実験と読んでくれてありがとう!

こんにちは! 私の人生には、ウェブサイトの作成についてまったく何も知らなかった時期がありました。さらに、robots.txtファイルの存在についても知りませんでした。

単純な興味が深刻な趣味に成長したとき、すべての微妙なことを学びたいという強さと欲求がありました。 フォーラムでは、このファイルに関連する多くのトピックを見つけることができます。なぜですか? 簡単です:robots.txtがアクセスを規制します サーチエンジンサイトにとって、インデックス作成を管理することは非常に重要です。

Robots.txtは、クロールや検索結果から除外する必要のあるサイトのセクションやページへの検索ロボットのアクセスを制限するように設計されたテキストファイルです。

特定のサイトコンテンツを非表示にするのはなぜですか? 検索ロボットが、パスワードやその他の秘密情報を保存している可能性のあるサイト管理ファイルにインデックスを付けても、満足できるとは限りません。

アクセスを規制するためのさまざまなディレクティブがあります。

  • User-agent-アクセスルールが指定されているユーザーエージェント、
  • 許可しない-URLへのアクセスを拒否します。
  • 許可-URLへのアクセスを許可します。
  • サイトマップ-へのパスを示します、
  • Crawl-delay-URLクロール間隔を設定します(Yandexのみ)、
  • Clean-param-動的URLパラメーターを無視します(Yandexのみ)、
  • ホスト-メインサイトミラーを示します(Yandexのみ)。

2018年3月20日以降、YandexはHostディレクティブのサポートを正式に停止していることに注意してください。 robots.txtから削除できます。削除すると、ロボットは単に無視します。

ファイルはサイトのルートディレクトリにある必要があります。 サイトにサブドメインがある場合、各サブドメインには独自のrobots.txtがあります。

安全を常に念頭に置いてください。 このファイルは誰でも表示できるため、管理リソース(コントロールパネルなど)への明示的なパスを指定する必要はありません。 ことわざにあるように、あなたが知らないほど、あなたはよりよく眠ります。 したがって、ページへのリンクがなく、インデックスを作成したくない場合は、ロボットに登録する必要はありません。スパイダーロボットであっても、とにかく誰もそれを見つけることができません。

サイトをクロールする場合、検索ロボットはまずサイトにrobots.txtファイルが存在するかどうかを確認し、次にページをクロールするときにその指示に従います。

検索エンジンはこのファイルを異なる方法で処理することにすぐに注意したいと思います。 たとえば、Yandexは無条件にそのルールに従い、禁止されているページをインデックスから除外しますが、Googleはこのファイルを推奨事項として認識します。

ページのインデックス作成を無効にするには、他の方法を使用できます。

  • リダイレクトするか、.htaccessファイルを使用してディレクトリに移動します。
  • メタタグnoindex(タグと混同しないでください テキストの一部の索引付けを防ぐため)、
  • リンクの属性、および余分なページへのリンクの削除。

同時に、Googleは、すべての制限にもかかわらず、インデックス作成が禁止されている検索結果ページに正常に追加できます。 その主な議論は、ページがリンクされている場合、それが検索結果に表示される可能性があるということです。 この場合、そのようなページにリンクしないことをお勧めしますが、すみません、robots.txtファイルはそのようなページを検索結果から除外するように設計されています...私の意見では、ロジックはありません🙄

検索からページを削除する

禁止されたページがまだインデックスに登録されている場合は、次を使用する必要があります Google検索コンソールとそのバンドルされたURL削除ツール:

同様のツールがYandexWebmasterで利用できます。 別の記事で、検索エンジンインデックスからページを削除する方法の詳細をご覧ください。

robots.txtを確認してください

Googleでテーマを続行し、別の検索コンソールツールを使用して、robots.txtファイルをチェックし、特定のページがインデックスに登録されないように正しく記述されているかどうかを確認できます。

これを行うには、テキストフィールドにチェックする必要のあるURLを入力し、[チェック]ボタンをクリックします。チェックの結果、このページのインデックス作成が禁止されているかどうか、またはそのコンテンツを検索できるかどうかがわかります。ロボット。

Yandexにも同様のツールがWebmasterにあり、チェックは同様の方法で実行されます。

ファイルを正しく作成する方法がわからない場合は、名前を付けて空のテキストドキュメントを作成してください。 robots.txt、およびCMSの機能とサイトの構造を学習するときに、必要なディレクティブで補足します。

リンクでファイルの正しいコンパイルについて読んでください。 またね!

すべての必須フィールドに順番に入力します。 ガイドすると、Robots.txtがディレクティブでいっぱいになります。 Robots.txtファイルのすべてのディレクティブについて以下で詳しく説明します。

鬼ごっこ, コピーテキストをテキストエディタに貼り付けます。 ファイルを「robots.txt」としてサイトのルートディレクトリに保存します。

Robots.txtファイル形式の説明

robots.txtファイルはエントリで構成され、各エントリは2つのフィールドで構成されます。クライアントアプリケーション(user-agent)の名前の行と、Disallowディレクティブで始まる1つ以上の行です。

指令「:」の意味

Robots.txtはUnixテキスト形式で作成する必要があります。 ほとんどの優れたテキストエディタは、WindowsのラインフィードをUnixに変換する方法をすでに知っています。 または、FTPクライアントがそれを実行できる必要があります。 編集には、HTMLエディタを使用しないでください。 テキストモードコード表示。

指令 ユーザーエージェント:

Ramblerの場合:ユーザーエージェント:StackRambler Yandexの場合:User-agent:Yandex Googleの場合:User-Agent:googlebot

すべてのロボットの命令を作成できます。

ユーザーエージェント: *

指令 禁止する:

エントリの2番目の部分は、Disallow行で構成されています。 これらの行は、このロボットのディレクティブ(命令、コマンド)です。 User-agent文字列で入力される各グループには、少なくとも1つのDisallowステートメントが必要です。 Disallow命令の数に制限はありません。これらの命令は、ロボットがインデックス付けを許可されていないファイルやディレクトリをロボットに通知します。 ファイルまたはディレクトリのインデックス作成を無効にすることができます。

次のディレクティブは、/cgi-bin/ディレクトリのインデックス作成を無効にします。

禁止:/cgi-bin/ディレクトリ名の最後にある/に注意してください。 ディレクトリ「/dir」へのアクセスを禁止するには、命令は「Disallow:/dir/」のようになります。 また、「Disallow:/ dir」という行は、サーバーのすべてのページにアクセスすることを禁止しています。このページのフルネーム(サーバーのルートから)は「/dir」で始まります。 例:「/ dir.html」、「/ dir / index.html」、「/directory.html」。

次のように記述されたディレクティブは、ルートにあるindex.htmファイルのインデックス作成を禁止します。

禁止:/index.htm

指令 許可する Yandexのみを理解します。

User-agent:Yandex許可:/ cgi-bin禁止:/#「/ cgi-bin」で始まるページを除くすべてのダウンロードを禁止他の検索エンジンでは、閉じているすべてのドキュメントを一覧表示する必要があります。 可能であれば、索引付けのために閉じられたドキュメントが1つの場所に収集されるように、サイトの構造を検討してください。

Disallowディレクティブが空の場合、ロボットがすべてのファイルにインデックスを付けることができることを意味します。 robots.txtが有効であると見なされるには、ユーザーエージェントフィールドごとに少なくとも1つのDisallowディレクティブが存在する必要があります。 完全に空のrobots.txtは、まったく存在しなかった場合と同じ意味です。

Ramblerロボットは*を任意の文字として理解するため、Disallow:*という命令は、サイト全体のインデックス作成を禁止することを意味します。

ディレクティブは、パラメーターなしで許可、禁止します。 ディレクティブAllow、Disallowのパラメータがない場合、次のように解釈されます。User-agent:Yandex Disallow:#Allowと同じ:/ User-agent:Yandex Allow:#Disallowと同じ:/

特殊文字「*」および「$」の使用.
Allow-Disallowディレクティブのパスを指定するときは、特殊文字「*」と「$」を使用できるため、特定の設定を行うことができます。 正規表現。 特殊文字「*」は、任意の(空の)文字シーケンスを意味します。 例:

User-agent:Yandex Disallow:/cgi-bin/*.aspx#disallows "/cgi-bin/example.aspx" and "/cgi-bin/private/test.aspx" Disallow:/ * private#disallows not only " / private」だけでなく、「/ cgi-bin/private」 特殊文字「$」.
デフォルトでは、robots.txtに記述されている各ルールの最後に「*」が追加されます。次に例を示します。User-agent:Yandex Disallow:/ cgi-bin *#「/ cgi-bin」で始まるページへのアクセスをブロックしますDisallow: / cgi- bin#同じようにルールの最後の「*」をキャンセルします。「$」の特殊文字を使用できます。例:User-agent:Yandex Disallow:/ example $#は「/example」を禁止します。ただし、「/ example.html」を禁止しないユーザーエージェント:Yandex Disallow:/ example#「/example」と「/example.html」の両方を無効にするユーザーエージェント:Yandex Disallow:/ example $#「/example」のみを無効にするDisallow:/ example * $#「Disallow:/example」が/example.htmlと/exampleの両方を禁止するのと同じ

指令 亭主.

サイトにミラーがある場合、特別なミラーロボットがそれらを検出し、サイトのミラーのグループを形成します。 メインミラーのみが検索に参加します。 パラメータとしてメインミラーの名前を指定し、「Host」ディレクティブを使用してrobots.txtを使用して指定できます。 「ホスト」ディレクティブは、指定されたメインミラーの選択を保証するものではありませんが、アルゴリズムは決定を行う際に高い優先度でそれを考慮に入れます。 例:#www.glavnoye-zerkalo.ruがメインサイトミラーである場合、#www.neglavnoye-zerkalo.ruのrobots.txtは次のようになります。User-Agent:* Disallow:/ forum Disallow:/ cgi-bin Host: www.glavnoye -zerkalo.ru robots.txtを処理するときに標準に完全に準拠していないロボットとの互換性のために、「Disallow」の直後の「User-Agent」エントリで始まるグループに「Host」ディレクティブを追加する必要があります"("許可 ")ディレクティブ。 「Host」ディレクティブの引数は、コロンで区切られたポート番号(デフォルトでは80)を持つドメイン名です。 Hostディレクティブのパラメーターは、単一の有効なホスト名(つまり、RFC 952に準拠し、IPアドレスではないホスト名)と有効なポート番号で構成されている必要があります。 誤って構成された「Host:」行は無視されます。

無視されたホストディレクティブの例:

ホスト:www.myhost-.ruホスト:www.-myhost.ruホスト:www.myhost.ru:100000ホスト:www.my_host.ruホスト:.my-host.ru:8000ホスト:my-host.ru。 ホスト:my..host.ruホスト:www.myhost.ru/ホスト:www.myhost.ru:8080 /ホスト:213.180.194.129ホスト:www.firsthost.ru、www.secondhost.ru#1行で-1行ドメイン! ホスト:www.firsthost.ru www.secondhost.ru#1行-1ドメイン!! ホスト:crew-link.rf#punycodeを使用する必要があります

指令 クロール遅延

クローラーがサーバーからページをダウンロードするタイムアウトを秒単位で設定します(クロール遅延)。

サーバーの負荷が高く、ダウンロードリクエストを処理する時間がない場合は、「Crawl-delay」ディレクティブを使用してください。 1ページのダウンロードが終了してから次のページのダウンロードが開始されるまでの検索ロボットの最小期間(秒単位)を設定できます。 robots.txtを処理するときに標準に完全に準拠していないロボットとの互換性を保つために、「Disallow」(「Allow」)の直後の「User-Agent」エントリで始まるグループに「Crawl-delay」ディレクティブを追加する必要があります。 )ディレクティブ。

Yandexクローラーは、0.5などの小数のクロール遅延値をサポートします。 これは、クローラーが0.5秒ごとにサイトにアクセスすることを保証するものではありませんが、ロボットの自由度を高め、サイトをより高速にクロールできるようにします。

User-agent:Yandex Crawl-delay:2#タイムアウトを2秒に設定しますUser-agent:* Disallow:/ search Crawl-delay:4.5#タイムアウトを4.5秒に設定します

指令 クリーンパラメータ

アドレスバーからパラメータを除外するためのディレクティブ。 それらの。 このようなパラメータを含み、-を含まないリクエストは同一と見なされます。

空白行とコメント

User-agentによって入力されたステートメントのグループ間に空白行を使用できます。

Disallowステートメントは、それが任意のUser-agent行に従属している場合、つまりその上にUser-agent行がある場合にのみ尊重されます。

ポンド記号「#」から行末までのテキストはコメントと見なされ、無視されます。

例:

次の簡単なファイル robots.txt反対に、サイトのすべてのページにインデックスを付けることが許可されているRamblerロボットを除いて、すべてのロボットがサイトのすべてのページにインデックスを付けることを禁止します。

#すべてのロボットへの指示ユーザーエージェント:*禁止:/#ランブラーロボットへの指示ユーザーエージェント:StackRambler禁止:

よくある間違い:

逆構文:User-agent:/ Disallow:StackRamblerそして次のようになります:User-agent:StackRambler Disallow:/ 1行にいくつかのDisallowディレクティブ:Disallow:/ css / / cgi-bin / / images /次のように修正します:禁止:/ css /禁止:/ cgi-bin /禁止:/ images /
    ノート:
  1. 空の改行は、「User-agent」ディレクティブと「Disallow」(「Allow」)ディレクティブの間、および「Disallow」(「Allow」)ディレクティブ自体の間では許可されません。
  2. 標準では、各「User-agent」ディレクティブの前に空の改行を挿入することを推奨しています。