Was mache ich, wenn AWS-Ressourcen zum Crawlen meiner Website verwendet werden?
Ich möchte verhindern, dass AWS-Ressourcen zum Crawlen meiner Website verwendet werden.
Kurzbeschreibung
Erstelle oder passe deine robots.txt-Datei an, um deine Website vor Crawlern zu schützen. Die robots.txt-Datei ist der anerkannte Standard, der die Aktivität von Web-Crawlern reguliert.
Passe deine robots.txt-Datei an, um Folgendes zu beeinflussen:
- Welche Crawler deine Website crawlen können.
- Welche Seiten die Crawler crawlen können.
- Die Rate, mit der Seiten gecrawlt werden können.
Weitere Informationen zur robots.txt-Datei und zum entsprechenden System findest du unter Was ist robots.txt auf der Cloudflare.com-Website.
Lösung
Wenn du keine robots.txt-Datei mit deiner Website verknüpft hast, verwende einen Texteditor, um eine neue Datei zu erstellen. Nenne die Datei robots.txt. Öffne alternativ deine robots.txt-Datei.
Einen bestimmten Web-Crawler nicht zulassen
Überprüfe deine Protokolle auf den User-Agent-Namen der Crawler, die du stoppen möchtest. Um zu verhindern, dass dieser Crawler Seiten in deiner Domain crawlt, füge den User-Agent-Namen zu deiner robots.txt-Datei hinzu:
User-agent: crawler Disallow: /
Hinweis: Ersetze Crawler durch den User-Agent-Namen des Crawlers.
Mehrere Crawler verwalten
Du kannst für jeden Crawler unterschiedliche Regeln in einem neuen Textblock definieren. Das folgende Beispiel verhindert, dass Crawler1 deine Seite überhaupt crawlt, ermöglicht aber Crawler2, deine Seite mit einer reduzierten Rate zu crawlen:
User-agent: crawler1 Disallow: / User-agent: crawler2 Crawl-delay: 60
Mit diesem Argument kann Crawler2 deine Domain crawlen, allerdings nur einmal alle 60 Millisekunden.
Alle Crawler blockieren
Wenn du alle Crawler von deinen Webinhalten blockieren möchtest, verwende ein Platzhalterzeichen:
User-agent: * Disallow: /
Hinweis: Suchmaschinen verwenden Crawler, um Seiten für die Verwendung in Suchergebnissen zu indizieren. Wenn du alle Crawler auf deiner Website blockierst, ist deine Seite für Benutzer schwieriger zu finden.
Kontrolliere, auf welches Verzeichnis ein Crawler zugreifen kann
Du kannst Regeln definieren, um festzulegen, welche Verzeichnisse oder Seiten von den Crawlern gecrawlt werden können. Im folgenden Beispiel wird der Crawler daran gehindert, Verzeichnis1 und Verzeichnis2 zu crawlen, mit Ausnahme der Seite example.html in Verzeichnis2:
User-agent: crawler Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/example.html
Hinweis: Ersetze Verzeichnis1 und Verzeichnis2 durch die Namen deiner Verzeichnisse. Ersetze example.html durch den Namen deiner Seite.
Deine robots.txt-Datei zu deiner Domain hinzufügen
Füge die robots.txt-Datei zu deiner Root-Domain hinzu. Wenn deine Domain beispielsweise example.com lautet, füge die Datei im folgenden Pfad hinzu:
www.example.com/robots.txt
AWS Abuse kontaktieren
Böswillige Crawler ignorieren deine robots.txt-Datei. Wenn du der Meinung bist, dass ein Crawler, der auf AWS-Ressourcen läuft, deine robots.txt-Datei ignoriert, sende einen Missbrauchsbericht mit vollständigen Protokollen. Diese Protokolle müssen das Datum, den Zeitstempel (einschließlich Zeitzone) und die Quell-IP-Adresse der Crawler-Aktivität enthalten. Beachte, dass das AWS Trust and Safety-Team deine robots.txt-Datei überprüfen muss, um die Nichteinhaltung der Vorschriften durch den betroffenen Kunden zu bestätigen.
Ähnliche Informationen
Ähnliche Videos


Relevanter Inhalt
- AWS OFFICIALAktualisiert vor 4 Monaten
- AWS OFFICIALAktualisiert vor 3 Jahren
- AWS OFFICIALAktualisiert vor 3 Jahren