GPTBot, ClaudeBot, CCBot : qui sont les robots IA et que font-ils réellement
L'écosystème des robots web a changé fondamentalement entre 2023 et 2025. Pendant deux décennies, les robots dominants appartenaient aux moteurs de recherche : Googlebot, Bingbot, et une poignée d'autres. Aujourd'hui, une nouvelle génération de robots opérés par des entreprises d'IA représente une part significative du trafic de crawl — et leurs intentions, comportements et respect des préférences des propriétaires de sites varient considérablement.
Comprendre qui sont ces robots est la première étape pour décider comment un site devrait y répondre.
GPTBot — OpenAI
GPTBot est le robot web d'OpenAI, identifié par la chaine d'agent GPTBot. Il récupère des pages web publiquement accessibles pour deux usages déclarés : l'entrainement de futurs modèles IA et l'alimentation des fonctionnalités de navigation web dans ChatGPT.
OpenAI a publié une documentation indiquant que GPTBot respecte les règles Disallow du robots.txt. Il filtre aussi le contenu derrière un paywall, le contenu nécessitant une connexion et le contenu qui enfreint les politiques d'utilisation d'OpenAI.
Du point de vue du propriétaire de site, la distinction clé est que GPTBot peut utiliser le contenu pour l'entrainement de modèles, pas uniquement pour répondre à des requêtes en temps réel. Bloquer GPTBot dans le robots.txt empêche les deux usages.
ClaudeBot — Anthropic
ClaudeBot est opéré par Anthropic, la société derrière la famille de modèles Claude. Il crawle le web pour la collecte de données d'entrainement sous l'agent ClaudeBot (anciennement anthropic-ai).
La documentation d'Anthropic indique que ClaudeBot respecte le robots.txt et supporte le blocage ciblé. Comme GPTBot, le cas d'usage principal est la collecte de données d'entrainement. Anthropic a aussi publié un agent distinct, ClaudeBot-User, pour la récupération web en temps réel quand un utilisateur de Claude demande de consulter une page spécifique — bien que cette distinction ne soit pas encore largement adoptée dans les configurations robots.txt.
CCBot — Common Crawl
CCBot est le robot derrière Common Crawl, un organisme sans but lucratif qui maintient une archive massive et publiquement accessible du web. Les données de Common Crawl ont servi de matériel d'entrainement pour pratiquement tous les grands modèles de langage, incluant GPT, Claude, LLaMA et de nombreux modèles ouverts.
L'agent de CCBot est CCBot. Il respecte le robots.txt, mais avec une nuance importante : même si on bloque CCBot aujourd'hui, le contenu peut déjà exister dans des instantanés Common Crawl plus anciens, collectés avant l'ajout du blocage. Ces instantanés historiques sont téléchargeables librement par quiconque.
Cela fait de CCBot un cas particulièrement complexe. Le bloquer reste une bonne pratique pour une protection prospective, mais ça ne retire pas rétroactivement le contenu des jeux de données existants.
Bytespider — ByteDance
Bytespider est opéré par ByteDance, la société mère de TikTok. C'est l'un des robots les plus agressifs du web en volume de requêtes. On a observé Bytespider effectuer des nombres extrêmement élevés de requêtes, souvent sans pause significative entre elles, ce qui peut créer une charge notable sur les hébergements de plus petite taille.
ByteDance n'a pas publié de documentation publique claire sur la finalité de Bytespider, mais il est généralement compris qu'il collecte des données pour l'entrainement de modèles IA et pour les produits de recherche de ByteDance. De nombreux propriétaires de sites bloquent Bytespider de manière préventive en raison de son agressivité de crawl seule.
Autres robots IA notables
Le paysage inclut plusieurs autres robots dont les propriétaires de sites devraient être informés :
- Google-Extended : le robot d'entrainement IA dédié de Google, distinct de Googlebot. Bloquer Google-Extended empêche l'utilisation du contenu pour l'entrainement de Gemini tout en conservant l'indexation Google Search intacte.
- FacebookBot : utilisé par Meta pour l'entrainement IA et la prévisualisation de contenu. L'agent existe depuis des années mais son rôle s'est élargi avec les initiatives IA de Meta.
- Amazonbot : le robot d'Amazon pour les services liés à l'IA et à Alexa.
- Applebot-Extended : le robot d'entrainement IA d'Apple, distinct du Applebot standard utilisé pour Siri et Spotlight.
- PerplexityBot : opère pour Perplexity AI, un produit de recherche propulsé par l'IA.
En quoi les robots IA diffèrent des robots de moteurs de recherche
La différence fondamentale réside dans l'intention. Googlebot récupère le contenu pour construire un index de recherche qui renvoie du trafic vers le site. Il y a une relation de réciprocité : on fournit du contenu, Google fournit des visiteurs.
Les robots IA brisent cette réciprocité. Ils récupèrent le contenu pour entrainer des modèles ou générer des réponses — souvent sans renvoyer le moindre trafic vers le site. Quand ChatGPT ou Claude répond à la question d'un utilisateur en s'appuyant sur des connaissances dérivées du contenu d'un site, l'utilisateur n'a aucune raison de visiter ce site. L'extraction de valeur est unidirectionnelle.
Cela ne rend pas les robots IA intrinsèquement nuisibles. Certains produits de recherche propulsés par l'IA (comme Perplexity ou les AI Overviews de Google) fournissent de l'attribution et parfois du trafic. Mais la dynamique par défaut est extractive, pas réciproque.
Ce qu'on peut faire
Le fichier robots.txt reste le mécanisme principal pour communiquer ses préférences aux robots IA. La plupart des grands robots IA le respectent, bien que la conformité soit déclarative, pas exécutoire. Aucun mécanisme technique n'empêche un robot d'ignorer le robots.txt — c'est un contrat social, pas un pare-feu.
Pour les propriétaires de sites WordPress, les étapes pratiques sont :
- Savoir quels robots IA visitent le site (vérifier les journaux du serveur ou utiliser un plugin qui rapporte le trafic des robots).
- Décider quels robots autoriser et lesquels bloquer, en fonction de la stratégie de contenu et du modèle d'affaires.
- Implémenter des blocs
User-agentspécifiques pour chaque catégorie plutôt qu'un Allow ou Deny général. - Réviser ces règles régulièrement, car de nouveaux robots IA apparaissent fréquemment et les existants changent de comportement.
Better Robots.txt simplifie cette tâche en organisant les robots IA dans un module de gouvernance dédié où l'on peut définir des politiques par robot ou par catégorie, avec une prévisualisation de la sortie finale avant tout changement.