使用しているウェブサイトが、AWS リソースによってクローリングされないようにしたいです。
簡単な説明
robots.txt ファイルを作成または変更することで、クローラーからウェブサイトを保護します。robots.txt ファイルは、ウェブクローラーのアクティビティを規制するための認められた基準です。
robots.txt ファイルを変更すると、次の内容が反映されます。
- ウェブサイトをクロールできるクローラーの種類。
- クローラーがクロールできるページ。
- ページをクロールできる速度。
robots.txt ファイルとシステムの詳細については、Cloudflare.com のウェブサイトで「robots.txt とは」を参照してください。
解決策
ウェブサイトに robots.txt ファイルが関連付けられていない場合は、テキストエディタを使用して新しいファイルを作成し、ファイルに robots.txt という名前を付けます。それ以外の場合は、robots.txt ファイルを開きます。
特定のウェブクローラーを禁止する
ログを参照し、禁止するクローラーの User-agent 名を確認します。そのクローラーがドメイン内のいずれのページもクローリングできないようにするには、robots.txt ファイルに該当する User-agent 名を追加します。
User-agent: crawler
Disallow: /
注: crawler は、該当するクローラーの User-agent 名に置き換えます。
複数のクローラーを管理する
新しいテキストブロックでは、クローラーごとに異なるルールを定義できます。次の例では、crawler1 によるページのクローリングは一切ブロックしませんが、crawler2 は低い頻度でページをクロールできます。
User-agent: crawler1
Disallow: /
User-agent: crawler2
Crawl-delay: 60
この引数では、crawler2 はドメインをクロールできますが、クロールできるのは 60 ミリ秒に 1 回だけです。
すべてのクローラーをブロックする
ウェブコンテンツからすべてのクローラーをブロックする場合は、ワイルドカード文字を使用します。
User-agent: *
Disallow: /
注: 検索エンジンはクローラーを使用してページのインデックスを作成し、検索結果で使用します。ウェブサイトですべてのクローラーをブロックすると、ユーザーがページを見つけにくくなります。
クローラーがアクセスできるディレクトリを制御する
クローラーがクロールできるディレクトリまたはページを指定するルールを定義できます。次の例では、directory1 およびdirectory2 のクローラーによるクローリングをブロックしますが、directory2 内の example.html のみは例外です。
User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html
注: directory1 と directory2 は、実際のディレクトリの名前に置き換えます。example.html は実際のページ名に置き換えます。
robots.txt ファイルをドメインに追加する
robots.txt ファイルをルートドメインに追加します。たとえば、ドメインが example.com の場合は、次のパスにファイルを追加します。
www.example.com/robots.txt
AWS の悪用に関するお問い合わせ
悪意のあるクローラーは robots.txt ファイルを無視します。AWS リソース上で実行されているクローラーが robots.txt ファイルを無視していると思われる場合は、完全なログを含む不正使用報告を送信してください。これらのログには、クローラーのアクティビティに関する日付、タイムスタンプ (タイムゾーンを含む)、ソース IP アドレスが含まれている必要があります。AWS Trust and Safety チームは robots.txt ファイルを審査し、関係するお客様のコンプライアンス違反を確認する必要があることに注意してください。
関連情報
AWS リソースの不正行為を報告する方法を教えてください