Quero evitar que os recursos da AWS sejam usados para rastrear meu site.
Breve descrição
Crie ou modifique o arquivo robots.txt para proteger o site contra crawlers. O arquivo robots.txt é o padrão aceito que regula a atividade do crawler da web.
Altere o arquivo robots.txt para definir:
- Quais crawlers podem rastrear o site.
- Quais páginas os crawlers podem rastrear.
- A taxa na qual as páginas podem ser rastreadas.
Para mais informações sobre o sistema e o arquivo robots.txt, consulte O que é robots.txt no site Cloudflare.com.
Resolução
Se você não tiver arquivo robots.txt associado ao site, use um editor de texto para criar um novo arquivo. Nomeie o arquivo robots.txt. Caso contrário, abra o arquivo robots.txt.
Proibir um crawler da web específico
Verifique nos logs o nome do User-agent dos crawlers que você deseja interromper. Para impedir que o crawler rastreie as páginas do seu domínio, adicione o nome do User-agent ao arquivo robots.txt:
User-agent: crawler
Disallow: /
Observação: substitua o crawler pelo nome do User-agent do crawler.
Gerenciar vários crawlers
É possível definir regras diferentes para cada crawler em um novo bloco de texto. O exemplo a seguir impede que o crawler1 rastreie a página, mas permite que o crawler2 rastreie a página a uma taxa reduzida:
User-agent: crawler1
Disallow: /
User-agent: crawler2
Crawl-delay: 60
Esse argumento permite que o crawler2 rastreie o domínio, mas somente uma vez a cada 60 milissegundos.
Bloquear todos os crawlers
Se você quiser bloquear todos os crawlers do conteúdo da web, use um caractere curinga:
User-agent: *
Disallow: /
Observação: os mecanismos de pesquisa usam crawlers para indexar páginas para uso nos resultados da pesquisa. Se você bloquear todos os crawlers do site, será mais difícil para os usuários encontrarem a página.
Controlar a qual diretório o crawler tem acesso
É possível definir regras para especificar quais diretórios ou páginas podem ser rastreados pelos crawlers. O exemplo a seguir impede que o crawler rastreio o directory1 e directory2, exceto pela página exemplo.html no directory2:
User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html
Observação: substitua directory1 e directory2 pelos nomes dos seus diretórios. Substitua exemplo.html pelo nome da sua página.
Adicionar o arquivo robots.txt ao domínio
Adicione o arquivo robots.txt ao domínio-raiz. Por exemplo, se o domínio for exemplo.com, adicione o arquivo no seguinte caminho:
www.example.com/robots.txt
Entrar em contato com a AWS Abuse
Crawlers mal-intencionados ignoram o arquivo robots.txt. Se você acredita que um crawler em execução nos recursos da AWS ignora o arquivo robots.txt, envie uma denúncia de violação com os logs completos, que devem incluir a data, o carimbo de data/hora (incluindo o fuso horário) e o endereço IP de origem da atividade do crawler. Atente-se ao fato de que a equipe de Confiança e segurança da AWS deve revisar o arquivo robots.txt para confirmar a não conformidade do cliente implicado.
Informações relacionadas
Como relato abusos dos recursos da AWS?