Was mache ich, wenn AWS-Ressourcen zum Crawlen meiner Website verwendet werden?

Lesedauer: 3 Minute
0

Ich möchte verhindern, dass AWS-Ressourcen zum Crawlen meiner Website verwendet werden.

Kurzbeschreibung

Erstelle oder passe deine robots.txt-Datei an, um deine Website vor Crawlern zu schützen. Die robots.txt-Datei ist der anerkannte Standard, der die Aktivität von Web-Crawlern reguliert.

Passe deine robots.txt-Datei an, um Folgendes zu beeinflussen:

  • Welche Crawler deine Website crawlen können.
  • Welche Seiten die Crawler crawlen können.
  • Die Rate, mit der Seiten gecrawlt werden können.

Weitere Informationen zur robots.txt-Datei und zum entsprechenden System findest du unter Was ist robots.txt auf der Cloudflare.com-Website.

Lösung

Wenn du keine robots.txt-Datei mit deiner Website verknüpft hast, verwende einen Texteditor, um eine neue Datei zu erstellen. Nenne die Datei robots.txt. Öffne alternativ deine robots.txt-Datei.

Einen bestimmten Web-Crawler nicht zulassen

Überprüfe deine Protokolle auf den User-Agent-Namen der Crawler, die du stoppen möchtest. Um zu verhindern, dass dieser Crawler Seiten in deiner Domain crawlt, füge den User-Agent-Namen zu deiner robots.txt-Datei hinzu:

User-agent: crawler
Disallow: /

Hinweis: Ersetze Crawler durch den User-Agent-Namen des Crawlers.

Mehrere Crawler verwalten

Du kannst für jeden Crawler unterschiedliche Regeln in einem neuen Textblock definieren. Das folgende Beispiel verhindert, dass Crawler1 deine Seite überhaupt crawlt, ermöglicht aber Crawler2, deine Seite mit einer reduzierten Rate zu crawlen:

User-agent: crawler1
Disallow: /
User-agent: crawler2
Crawl-delay: 60

Mit diesem Argument kann Crawler2 deine Domain crawlen, allerdings nur einmal alle 60 Millisekunden.

Alle Crawler blockieren

Wenn du alle Crawler von deinen Webinhalten blockieren möchtest, verwende ein Platzhalterzeichen:

User-agent: *
Disallow: /

Hinweis: Suchmaschinen verwenden Crawler, um Seiten für die Verwendung in Suchergebnissen zu indizieren. Wenn du alle Crawler auf deiner Website blockierst, ist deine Seite für Benutzer schwieriger zu finden.

Kontrolliere, auf welches Verzeichnis ein Crawler zugreifen kann

Du kannst Regeln definieren, um festzulegen, welche Verzeichnisse oder Seiten von den Crawlern gecrawlt werden können. Im folgenden Beispiel wird der Crawler daran gehindert, Verzeichnis1 und Verzeichnis2 zu crawlen, mit Ausnahme der Seite example.html in Verzeichnis2:

User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html

Hinweis: Ersetze Verzeichnis1 und Verzeichnis2 durch die Namen deiner Verzeichnisse. Ersetze example.html durch den Namen deiner Seite.

Deine robots.txt-Datei zu deiner Domain hinzufügen

Füge die robots.txt-Datei zu deiner Root-Domain hinzu. Wenn deine Domain beispielsweise example.com lautet, füge die Datei im folgenden Pfad hinzu:

www.example.com/robots.txt

AWS Abuse kontaktieren

Böswillige Crawler ignorieren deine robots.txt-Datei. Wenn du der Meinung bist, dass ein Crawler, der auf AWS-Ressourcen läuft, deine robots.txt-Datei ignoriert, sende einen Missbrauchsbericht mit vollständigen Protokollen. Diese Protokolle müssen das Datum, den Zeitstempel (einschließlich Zeitzone) und die Quell-IP-Adresse der Crawler-Aktivität enthalten. Beachte, dass das AWS Trust and Safety-Team deine robots.txt-Datei überprüfen muss, um die Nichteinhaltung der Vorschriften durch den betroffenen Kunden zu bestätigen.

Ähnliche Informationen

How do I report abuse of AWS resources?

AWS OFFICIAL
AWS OFFICIALAktualisiert vor 5 Monaten