Claude-User vs ClaudeBot vs Claude-SearchBot : quelle surface Anthropic contrôle quoi
La documentation crawler d’Anthropic est devenue beaucoup plus utile à partir du moment où elle a cessé de fonctionner comme une simple liste plate de bots.
Elle rend maintenant explicite une séparation en 3 surfaces :
ClaudeBotClaude-UserClaude-SearchBot
Cette séparation compte parce que chaque surface répond à une question de politique différente.
Si on les rabat dans une seule catégorie du type « bot Anthropic », on perd la possibilité de séparer :
- la posture d’entraînement ;
- la visibilité dans les workflows de recherche Claude ;
- la récupération dirigée par l’utilisateur.
C’est exactement le genre d’erreur de catégorie que Better Robots.txt aide à réduire.
La version courte
Voici la lecture opérationnelle la plus utile.
| Surface | À quoi elle sert | Question principale |
|---|---|---|
ClaudeBot | Collecte pour entraînement | Autorise-t-on l’inclusion des futurs contenus du site dans les jeux de données d’entraînement d’Anthropic ? |
Claude-User | Récupération déclenchée par l’utilisateur | Autorise-t-on Claude à récupérer nos pages en réponse à une requête utilisateur ? |
Claude-SearchBot | Optimisation de recherche | Veut-on que le site soit indexé pour améliorer la visibilité et la précision dans les résultats de recherche de Claude ? |
C’est le minimum sûr.
Ce que contrôle réellement ClaudeBot
ClaudeBot est la surface Anthropic liée à la collecte pour entraînement.
Anthropic la décrit comme le bot qui aide à améliorer l’utilité et la sécurité de ses modèles génératifs en collectant du contenu web susceptible de contribuer à l’entraînement.
C’est donc la surface pertinente quand la vraie question est :
- faut-il exclure les futurs contenus du site des jeux de données d’entraînement Anthropic ?
- veut-on refuser un usage pour amélioration de modèle ?
- veut-on séparer la visibilité en recherche de la réutilisation pour entraînement ?
La première leçon importante est donc la suivante :
bloquer ClaudeBot correspond à une décision d’entraînement.
Ce n’est pas la même chose que bloquer la récupération dirigée par l’utilisateur ou l’optimisation de recherche.
Ce que contrôle réellement Claude-User
Claude-User est la surface Anthropic de récupération déclenchée par l’utilisateur.
Anthropic l’explique très clairement : lorsque des personnes posent des questions à Claude, le système peut accéder à des sites web à l’aide d’un agent Claude-User.
Ce point est crucial parce qu’il rend la classe de requête explicite.
La visite existe parce qu’un utilisateur l’a demandée.
Il ne s’agit pas simplement d’un crawl automatique classique.
Anthropic précise aussi que désactiver Claude-User empêche son système de récupérer votre contenu en réponse à une requête utilisateur, ce qui peut réduire la visibilité du site dans la recherche web dirigée par l’utilisateur.
Donc, si la vraie question business est :
- veut-on que Claude puisse récupérer nos pages à la demande ;
- accepte-t-on la récupération dirigée par l’utilisateur mais pas l’entraînement ;
- pourquoi voit-on encore du trafic Anthropic après avoir changé la posture d’entraînement ;
alors la surface à examiner est Claude-User.
Ce que contrôle réellement Claude-SearchBot
Claude-SearchBot est la surface Anthropic liée à l’optimisation de recherche.
Anthropic indique qu’il navigue sur le web pour améliorer la qualité des résultats de recherche pour les utilisateurs, en analysant le contenu en ligne pour améliorer la pertinence et la précision des réponses de recherche.
C’est donc la bonne surface quand la question porte sur :
- la découvrabilité de type recherche dans Claude ;
- l’indexation destinée à améliorer la qualité des réponses ;
- la visibilité et la précision dans les résultats de recherche des utilisateurs.
Anthropic précise aussi que désactiver Claude-SearchBot empêche le système d’indexer votre contenu pour l’optimisation de recherche, ce qui peut réduire la visibilité et la précision du site dans les résultats de recherche utilisateur.
La deuxième leçon centrale est donc la suivante :
Claude-SearchBot n’est pas ClaudeBot.
L’un relève de l’entraînement. L’autre relève de l’optimisation de recherche et de la visibilité.
Ce qui distingue Anthropic sur le plan opérationnel
La documentation d’Anthropic ajoute deux détails opérationnels très importants.
1. Anthropic prend en charge Crawl-delay
Anthropic indique que ses bots visent une perturbation minimale et respectent Crawl-delay lorsque c’est approprié.
C’est utile pour les sites où la vraie question n’est pas « tout bloquer ou tout autoriser », mais « ralentir cet opérateur ».
2. Anthropic ne publie pas actuellement de plages IP
Anthropic précise aussi que l’opt-out doit passer par robots.txt, et non par le blocage d’adresses IP, parce que le blocage IP peut ne pas fonctionner correctement ou durablement comme garantie d’opt-out, et peut empêcher Anthropic de lire votre robots.txt.
La société indique également qu’elle ne publie pas actuellement de plages IP, car elle utilise des IP publiques de prestataires.
C’est une différence pratique majeure par rapport aux opérateurs qui publient des listes IP dédiées.
Cela veut dire que, pour Anthropic, le levier public principal reste la surface de politique publiée, pas un workflow fort de vérification IP.
Quelle surface Anthropic faut-il utiliser ?
Voici le bon parcours de décision.
Objectif : refuser l’usage pour entraînement
Bloquez ClaudeBot.
C’est la surface qu’Anthropic relie à ses futurs jeux de données d’entraînement.
Objectif : rester visible dans les systèmes de recherche Claude
Gardez Claude-SearchBot autorisé.
S’il est bloqué, il faut s’attendre à une baisse de visibilité et de qualité d’indexation dans ces workflows utilisateur.
Objectif : gouverner l’accès déclenché par l’utilisateur
Traitez Claude-User séparément.
C’est la surface Anthropic liée à la récupération dirigée par l’utilisateur.
Objectif : réduire la pression de crawl sans blocage total
Envisagez Crawl-delay en plus de votre posture Allow / Disallow.
Trois erreurs fréquentes
1. Bloquer ClaudeBot en pensant couvrir tout le trafic Anthropic
Ce n’est pas le cas.
Cela ne traite que la surface d’entraînement.
2. Utiliser le blocage IP comme stratégie d’opt-out principale
Anthropic avertit explicitement que cela peut ne pas fonctionner correctement ou durablement et peut empêcher la lecture du robots.txt.
3. Oublier les sous-domaines
Anthropic indique qu’il faut publier le bloc dans le robots.txt de chaque sous-domaine que l’on veut exclure.
C’est un oubli opérationnel classique.
Où Better Robots.txt se place
Better Robots.txt aide surtout sur la partie du problème qui relève vraiment d’une politique publiable.
Il aide à :
- séparer entraînement, optimisation de recherche, et récupération dirigée par l’utilisateur ;
- publier des règles
robots.txtplus claires ; - éviter de rabattre toutes les décisions Anthropic dans un seul bloc grossier ;
- aligner ces décisions avec les autres surfaces de gouvernance machine.
Ce qu’il ne peut pas faire, c’est rendre le trafic Anthropic plus facilement vérifiable qu’Anthropic ne le documente publiquement.
Quand la vérification d’identité est faible ou que les plages IP ne sont pas publiées, la bonne posture consiste à le dire honnêtement et à construire la politique en conséquence.
Le bon modèle mental
Le modèle mental Anthropic le plus sûr est celui-ci :
ClaudeBot= collecte pour entraînementClaude-User= récupération dirigée par l’utilisateurClaude-SearchBot= optimisation de recherche
Plus cette séparation est claire, moins la politique risque de détruire de la visibilité alors que le vrai objectif était seulement de refuser l’entraînement.