Skip to content

Comment lire les journaux de crawl et identifier les robots indésirables

Le robots.txt ne peut bloquer que les robots qu'on connait. Et la seule façon fiable de savoir quels robots visitent un site est de lire les journaux du serveur. Tout le reste — tableaux de bord analytiques, rapports de plugins, estimations de trafic — est une vue filtrée et incomplète. Les journaux sont la vérité terrain.

Où trouver les journaux

Sur la plupart des environnements d'hébergement WordPress, les journaux d'accès sont stockés dans un emplacement standard. Sur les serveurs Apache, le fichier est typiquement à /var/log/apache2/access.log ou dans le panneau de contrôle de l'hébergement sous « Journaux d'accès bruts ». Sur les serveurs Nginx, c'est habituellement /var/log/nginx/access.log. Les hébergeurs WordPress gérés comme WP Engine, Kinsta ou Cloudways fournissent l'accès aux journaux par leurs tableaux de bord ou via SFTP.

Si on utilise Cloudflare, Sucuri ou un autre CDN ou couche de sécurité, il faut savoir que du trafic de robots peut être filtré avant d'atteindre le serveur d'origine. Dans ce cas, les analytiques ou journaux du CDN fournissent un portrait plus complet que les journaux du serveur seuls.

Anatomie d'une ligne de journal

Une entrée typique de journal d'accès Apache ressemble à ceci :

66.249.68.42 - - [15/Mar/2026:08:23:17 +0000] "GET /blog/ai-crawlers/ HTTP/1.1" 200 15234 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Les champs qui comptent pour l'identification des robots sont :

L'adresse IP (66.249.68.42) identifie le serveur demandeur. Pour les robots connus, elle peut être croisée avec les plages d'IP publiées pour vérifier l'authenticité.

Le chemin de la requête (/blog/ai-crawlers/) montre quelle page a été demandée. Les patrons dans les chemins demandés révèlent quelles sections du site attirent le plus d'attention des robots.

Le code de statut (200) montre si la requête a réussi. Un nombre élevé de réponses 404 d'un robot spécifique indique qu'il suit des liens périmés ou sonde des chemins inexistants.

La chaine d'agent (le dernier champ entre guillemets) est la façon dont le robot s'identifie. C'est le champ le plus important pour l'identification, bien qu'il puisse être falsifié.

Identifier les catégories de robots

En filtrant les journaux par le champ d'agent, on peut catégoriser tout le trafic de robots en groupes actionnables :

Les robots de moteurs de recherche s'identifient clairement : Googlebot, Bingbot, YandexBot, Baiduspider. Ce sont les robots qu'on veut presque toujours autoriser. Leurs plages d'IP sont documentées publiquement, ce qui permet de vérifier qu'une requête se réclamant de Googlebot vient réellement de Google.

Les robots IA utilisent des chaines d'agent spécifiques : GPTBot, ClaudeBot, CCBot, Bytespider, Google-Extended, PerplexityBot, Applebot-Extended, FacebookBot, Amazonbot, Meta-ExternalAgent. Chacun représente un opérateur distinct avec des comportements de crawl différents.

Les outils SEO et scrapers concurrentiels incluent AhrefsBot, SemrushBot, DotBot, MJ12bot, et des dizaines d'autres. Ces robots indexent le site pour les bases de données d'analyse concurrentielle de leurs plateformes respectives.

Les robots d'archivage incluent ia_archiver (Internet Archive), archive.org_bot, et similaires. Ils créent des instantanés historiques du site.

Les agents non identifiés ou génériques sont la catégorie la plus préoccupante. Les robots qui utilisent un agent de navigateur générique (prétendant être Chrome ou Firefox) ou qui ne fournissent aucune identification sont soit mal configurés, soit délibérément trompeurs, soit malveillants. Les robots légitimes s'identifient. Les robots qui cachent leur identité ont rarement de bonnes raisons.

Analyse pratique des journaux

Des outils spécialisés ne sont pas nécessaires pour un audit de base. Sur un serveur Linux, quelques commandes extraient l'information nécessaire :

Pour voir tous les agents uniques dans le journal : trier le champ d'agent, retirer les doublons et compter les occurrences. Cela donne une liste classée de chaque robot ayant visité le site.

Pour voir quels chemins un robot spécifique a demandés : filtrer le journal par cette chaine d'agent et extraire le chemin de la requête.

Pour voir le volume de requêtes dans le temps : compter les requêtes par heure ou par jour pour chaque robot. Un pic soudain de requêtes d'un agent spécifique vaut investigation.

Pour détecter la falsification d'agent : croiser l'adresse IP d'une requête se réclamant de Googlebot avec les plages d'IP publiées de Google. Si l'IP ne correspond pas, la requête ne vient pas de Googlebot.

Transformer les données en règles

L'objectif de l'analyse des journaux est de produire des règles robots.txt actionnables. Le processus est :

  1. Identifier les robots qui visitent le site régulièrement.
  2. Catégoriser chaque robot : moteur de recherche, robot IA, outil SEO, service d'archivage, ou inconnu.
  3. Pour chaque catégorie, décider d'autoriser ou de restreindre l'accès.
  4. Ajouter des blocs User-agent spécifiques dans le robots.txt pour les robots qu'on veut restreindre.
  5. Pour les robots qui ignorent le robots.txt ou falsifient leur identité, escalader vers des blocages au niveau du serveur (bannissement d'IP, limitation de débit, ou règles WAF).

Better Robots.txt inclut une base de données curatée de robots connus organisée par catégorie, qui correspond directement aux catégories visibles dans les journaux. Cela rend la traduction de l'analyse des journaux vers la configuration robots.txt directe.

Établir une routine

Un seul audit de journaux est utile. Un audit régulier est transformateur. De nouveaux robots apparaissent constamment. Les robots existants changent de comportement. Les volumes de crawl évoluent à mesure que les entreprises IA lancent de nouveaux cycles d'entrainement.

La cadence minimale est trimestrielle. Pour les sites à fort trafic ou les sites avec du contenu original de valeur, mensuelle est mieux. Chaque audit prend 15 à 30 minutes et produit des améliorations directes et mesurables de la posture de gouvernance du crawl.

Les sites qui contrôlent leur trafic de robots sont les sites qui connaissent leur trafic de robots. Tout commence par la lecture des journaux.