Je souhaite empêcher les ressources AWS d’être utilisées pour indexer mon site Web.
Brève description
Créez ou modifiez votre fichier robots.txt pour protéger votre site Web contre les robots. Le fichier robots.txt est la norme acceptée qui régule l'activité des robots Web.
Modifiez votre fichier robots.txt pour impacter les éléments suivants :
- Les robots autorisés à analyser votre site Web.
- Les pages qui peuvent être analysées par les robots.
- La vitesse à laquelle les pages peuvent être analysées.
Pour plus d'informations sur le fichier robots.txt et le système, consultez la page Qu'est-ce que le fichier robots.txt ? sur le site Web de CloudFlare.com.
Résolution
Si aucun fichier robots.txt n'est associé à votre site Web, utilisez un éditeur de texte pour créer un nouveau fichier. Nommez le fichier robots.txt. Sinon, ouvrez votre fichier robots.txt.
Interdire un robot Web spécifique
Consultez vos journaux pour connaître le nom agent utilisateur des robots que vous souhaitez arrêter. Pour empêcher ce robot d'analyser les pages de votre domaine, ajoutez le nom agent utilisateur à votre fichier robots.txt :
User-agent: crawler
Disallow: /
Remarque : Remplacez crawler par le nom agent utilisateur du robot.
Gérer plusieurs robots
Vous pouvez définir des règles différentes pour chaque robot dans un nouveau bloc de texte. L'exemple suivant empêche complètement crawler1 d'analyser votre page, mais autorise crawler2 à analyser votre page à une vitesse réduite :
User-agent: crawler1
Disallow: /
User-agent: crawler2
Crawl-delay: 60
Cet argument permet à crawler2 d’analyser votre domaine, mais uniquement toutes les 60 millisecondes.
Bloquer tous les robots
Si vous souhaitez bloquer tous les robots de votre contenu Web, utilisez un caractère générique :
User-agent: *
Disallow: /
Remarque : Les moteurs de recherche utilisent des robots pour indexer les pages à utiliser dans les résultats de la recherche. Si vous bloquez tous les robots de votre site Web, votre page sera plus difficile à localiser pour les utilisateurs.
Contrôler le répertoire auquel un robot peut accéder
Vous pouvez définir des règles pour indiquer quels répertoires ou pages peuvent être analysés par les robots. L'exemple suivant empêche le robot d’analyser directory1 et directory2, à l'exception de la page example.html dans directory2 :
User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html
Remarque : Remplacez directory1 et directory2 par les noms de vos répertoires. Remplacez example.html par le nom de votre page.
Ajouter votre fichier robots.txt à votre domaine
Ajoutez le fichier robots.txt à votre domaine racine. Par exemple, si votre domaine est exemple.com, ajoutez le fichier dans le chemin suivant :
www.example.com/robots.txt
Contacter AWS Abuse
Les robots malveillants ignorent votre fichier robots.txt. Si vous pensez qu'un robot s'exécutant sur les ressources AWS ignore votre fichier robots.txt, soumettez un signalement d'abus avec des journaux complets. Ces journaux doivent inclure la date, l'horodatage (y compris le fuseau horaire) et l'adresse IP source de l'activité du robot. Sachez que l'équipe AWS Trust and Safety doit examiner votre fichier robots.txt pour confirmer la non-conformité du client concerné.
Informations connexes
Comment signaler une utilisation abusive des ressources AWS ?