¿Qué hago si los recursos de AWS se utilizan para rastrear mi sitio web?

3 minutos de lectura
0

Quiero evitar que los recursos de AWS se utilicen para rastrear mi sitio web.

Breve descripción

Crea o modifica el archivo robots.txt para proteger tu sitio web contra los rastreadores. El archivo robots.txt es el estándar aceptado que regula la actividad de los rastreadores web.

Modifica el archivo robots.txt para que afecte a lo siguiente:

  • Qué rastreadores pueden rastrear el sitio web.
  • Qué páginas pueden rastrear los rastreadores.
  • La velocidad a la que se pueden rastrear las páginas.

Para obtener más información sobre el archivo robots.txt y el sistema, consulta ¿Qué es el archivo robots.txt? en el sitio web Cloudflare.com.

Resolución

Si no tienes un archivo robots.txt asociado a tu sitio web, usa un editor de texto para crear un archivo nuevo. Asigna al archivo el nombre robots.txt. Si ya lo tienes, abre el archivo robots.txt.

No permitir un rastreador web específico

Comprueba en los registros el nombre de User-agent de los rastreadores que quieres detener. Para impedir que ese rastreador rastree cualquier página de tu dominio, añade el nombre de User-agent al archivo robots.txt:

User-agent: crawler
Disallow: /

Nota: Sustituye crawler por el nombre de User-agent del rastreador.

Administrar varios rastreadores

Puedes definir reglas diferentes para cada rastreador en un bloque de texto nuevo. En el siguiente ejemplo se bloquea por completo crawler1 para que no rastree la página, pero permite que crawler2 rastree la página a un ritmo reducido:

User-agent: crawler1
Disallow: /
User-agent: crawler2
Crawl-delay: 60

Este argumento permite que crawler2 rastrear el dominio, pero solo a una velocidad de una vez cada 60 milisegundos.

Bloquear todos los rastreadores

Si quieres bloquear el acceso de todos los rastreadores a tu contenido web, utiliza un carácter comodín:

User-agent: *
Disallow: /

Nota: Los motores de búsqueda utilizan rastreadores para indexar las páginas y utilizarlas en los resultados de búsqueda. Si bloqueas todos los rastreadores de tu sitio web, será más difícil para los usuarios encontrar tu página.

Controlar a qué directorio puede acceder un rastreador

Puedes definir reglas para especificar qué directorios o páginas pueden rastrear los rastreadores. En el siguiente ejemplo se impide que crawler rastree directory1 y directory2, excepto la página example.html de directory2:

User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html

Nota: Sustituye directory1 y directory2 por los nombres de tus directorios. Sustituye example.html por el nombre de la página.

Añadir el archivo robots.txt al dominio

Añade el archivo robots.txt a tu dominio raíz. Por ejemplo, si tu dominio es example.com, añade el archivo en la siguiente ruta:

www.example.com/robots.txt

Contactar con AWS Abuse

Los rastreadores malintencionados ignoran el archivo robots.txt. Si crees que un rastreador que se ejecuta en los recursos de AWS ignora tu archivo robots.txt, envía un informe de abuso con los registros completos. Estos registros deben incluir la fecha, la marca de tiempo (incluida la zona horaria) y la dirección IP de origen de la actividad del rastreador. Ten en cuenta que el equipo de confianza y seguridad de AWS debe revisar el archivo robots.txt para confirmar la infracción del cliente implicado.

Información relacionada

¿Cómo denuncio el uso indebido de los recursos de AWS?