Desidero impedire che le risorse AWS vengano utilizzate per il crawling del mio sito Web.
Breve descrizione
Crea o modifica il tuo file robots.txt per proteggere il tuo sito Web dai crawler. Il file robots.txt è lo standard accettato che regola l'attività dei Web crawler.
Modifica il tuo file robots.txt per determinare quanto segue:
- Quali crawler possono scansionare il tuo sito Web.
- Quali pagine possono essere scansionate dai crawler.
- La velocità con cui le pagine possono essere scansionate.
Per ulteriori informazioni sul sistema e sul file robots.txt, consulta Cos'è robots.txt sul sito Web CloudFlare.com.
Risoluzione
Se non hai un file robots.txt associato al tuo sito Web, utilizza un editor di testo per creare un nuovo file. Assegna un nome al file robots.txt. Altrimenti apri il tuo file robots.txt.
Disabilita un Web crawler specifico
Controlla nei log il nome User-agent dei crawler che desideri arrestare. Per impedire a un crawler di scansionare qualsiasi pagina del tuo dominio, aggiungi il suo nome User-agent al tuo file robots.txt:
User-agent: crawler
Disallow: /
Nota: sostituisci a crawler il nome User-agent del crawler.
Gestisci più crawler
Puoi definire regole diverse per ogni crawler in un nuovo blocco di testo. L'esempio seguente impedisce a crawler1 di scansionare la pagina, ma consente a crawler2 di scansionarla a una velocità ridotta:
User-agent: crawler1
Disallow: /
User-agent: crawler2
Crawl-delay: 60
Questo argomento consente a crawler2 di scansionare il tuo dominio ma solo una volta ogni 60 millisecondi.
Blocca tutti i crawler
Se desideri bloccare tutti i crawler dai tuoi contenuti Web, utilizza un carattere jolly:
User-agent: *
Disallow: /
Nota: i motori di ricerca utilizzano i crawler per indicizzare le pagine da utilizzare nei risultati di ricerca. Se blocchi tutti i crawler del tuo sito Web, la tua pagina sarà più difficile da trovare per gli utenti.
Controlla a quale directory può accedere un crawler
Puoi definire regole per specificare quali directory o pagine possono essere scansionate dai crawler. L'esempio seguente impedisce al crawler di scansionare directory1 e directory2, ad eccezione della pagina esempio.html all'interno di directory2:
User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html
Nota: sostituisci a ** directory1 ** e ** directory2 ** i nomi delle tue directory. Sostituisci a esempio.html il nome della tua pagina.
Aggiungi il tuo file robots.txt al tuo dominio
Aggiungi il file robots.txt al tuo dominio principale. Per esempio, se il tuo dominio è esempio.com, aggiungi il file nel seguente percorso:
www.example.com/robots.txt
Contatta AWS Abuse
I crawler dannosi ignorano il tuo file robots.txt. Se ritieni che un crawler in esecuzione su risorse AWS ignori il tuo file robots.txt, invia una segnalazione di abuso con log completi. Questi log devono includere la data, l'ora (compreso il fuso orario) e l'indirizzo IP di origine dell'attività del crawler. Tieni presente che il team AWS Trust and Safety deve esaminare il tuo file robots.txt per confermare la non conformità del cliente implicato.
Informazioni correlate
Come posso segnalare un abuso di risorse AWS?