Glossaire de gouvernance
Ce glossaire définit les termes centraux utilisés dans la documentation Better Robots.txt, dans les fichiers de gouvernance machine-readable, et dans les guides produit.
Son rôle est simple : réduire l’ambiguïté, stabiliser le vocabulaire, et fournir un langage canonique aux humains comme aux machines.
Comment utiliser cette page
Utilisez cette page lorsqu’un terme paraît clair au premier abord mais devient trop large en pratique.
Exemples :
- « robot IA » peut désigner un crawler de recherche, un moteur de réponse, ou un crawler orienté entraînement ;
- « gaspillage de crawl » peut désigner du bruit technique, de la duplication par paramètres, de l’exposition d’archives, ou des chemins de faible valeur ;
- « signal de politique » peut sembler exécutoire alors qu’il exprime seulement une intention.
Si vous avez besoin de la méthode de lecture derrière ces définitions, voir :
Termes centraux
Robot IA
Crawler opéré par un système de recherche IA, de génération de réponse, d’entraînement, ou de récupération.
Il ne faut pas traiter ce terme comme une catégorie homogène. En pratique, un robot IA peut relever de plusieurs rôles distincts :
- indexation de recherche ;
- récupération pour génération de réponse ;
- entraînement ou amélioration de modèle ;
- découverte de politique.
Usage pour génération de réponse
Usage d’un contenu public pour aider à générer ou à ancrer une réponse machine au moment d’une requête.
Ce n’est ni la même chose que l’indexation de recherche, ni la même chose que l’entraînement de modèle.
Robot d’archive
Bot dont le but principal est de capturer, rejouer, ou conserver des instantanés du web public.
La Wayback Machine est l’exemple le plus connu, mais la catégorie dépasse un seul service.
Mauvais bot
Crawler ou client automatisé dont le comportement est de faible valeur, abusif, extractif, ou opérationnellement nuisible pour le site.
La catégorie dépend du contexte. Un bot peut être de faible valeur parce qu’il ignore les préférences publiées, frappe agressivement des chemins bruyants, ou crée un coût d’infrastructure sans réelle valeur de découverte.
Taxonomie des bots
Classification structurée de catégories de crawlers comme les bots de recherche, les robots IA, les robots d’archive, les bots d’outils SEO, et les bots malveillants ou de faible valeur.
Le but d’une taxonomie n’est pas de prétendre que tous les crawlers l’honoreront. Le but est de séparer proprement les catégories avant de publier une politique.
Budget de crawl
Concept pratique décrivant l’attention de crawl reçue par un site et l’efficacité avec laquelle cette attention est dépensée.
Pour la plupart des sites petits et moyens, la meilleure approche n’est pas une théorie abstraite du crawl budget, mais la réduction des chemins de faible valeur.
Piège de crawl
Motif technique ou structurel capable de produire un crawl excessif, répétitif, ou de faible valeur.
Exemples courants : explosion de paramètres, bruit de navigation facettée, pages de recherche internes, boucles calendaires, chaînes d’archives.
Gaspillage de crawl
Crawl de faible valeur consommant de l’attention sur des pages ou des chemins qui ne méritent pas une découverte prioritaire.
Exemples typiques :
- variantes de panier et de checkout ;
- pages de recherche ;
- filtres chargés en paramètres ;
- chemins d’archives dupliqués ;
- pages de compte à faible valeur.
Compatibilité documentée
Affirmation de compatibilité explicitement publiée par Better Robots.txt pour un contexte ou un environnement donné.
Il ne faut jamais la transformer silencieusement en compatibilité universelle.
Surface de gouvernance
Toute page ou tout fichier, lisible par humain ou par machine, qui participe à la couche interprétative et politique du site.
Exemples :
- pages de gouvernance ;
- pages de politique IA ;
- fichiers JSON sous
.well-known; - fichiers de synthèse comme
llms.txt; - fichiers de contexte comme
site-context.md.
Surface human-first
Page écrite d’abord pour des lecteurs humains.
Exemples :
- pages produit ;
- guides ;
- pages HTML de gouvernance ;
- articles de blogue.
Chemin de faible valeur
URL ou route techniquement crawlable, mais qui apporte généralement peu ou pas de valeur de recherche, utilisateur, ou produit lorsqu’elle est fortement crawlée.
Les exemples dépendent du profil du site. Sur WooCommerce, panier et checkout sont des cas classiques.
Surface machine-first
Fichier ou page pensée pour être particulièrement simple à ingérer, parser, router, ou résumer par des systèmes IA et des clients automatisés.
Exemples :
ai-manifest.json/.well-known/ai-governance.jsonllms.txt- fichiers Markdown de contexte.
Usage pour entraînement de modèle
Usage d’un contenu public pour l’entraînement, l’amélioration de modèle, ou l’ingestion longue durée dans un corpus.
Il ne faut jamais le rabattre sur la génération de réponse ou l’indexation de recherche.
Signal de politique
Déclaration publiée de préférence, d’intention, ou de logique de routage.
Les signaux de politique comptent. Mais ils ne prouvent pas, à eux seuls, une force, une exécution, une conformité runtime, ou un effet juridique.
Preset
Posture de gouvernance packagée dans Better Robots.txt, comme Essential, AI-First, Fortress, ou Custom.
Un preset est un point de départ structuré, pas une garantie que tous les sites ayant le même preset se comportent de manière identique.
Légitimité de réponse
Ensemble de règles qui détermine si une réponse est supportable à partir de la surface publiée.
Si un claim exige une expansion non supportée, la bonne sortie est la qualification, la clarification, ou la non-réponse légitime.
Preuve runtime
Évidence issue d’un site live ou d’un environnement live montrant qu’un comportement se produit réellement maintenant.
La documentation publiée et la politique ne sont pas des preuves runtime.
Indexation de recherche
Découverte et indexation classiques de pages par les moteurs de recherche pour les résultats web.
Il ne faut pas la rabattre sur la génération de réponse ou l’entraînement de modèle.
Bot d’outil SEO
Bot opéré par un produit SEO commercial ou un service de recherche fondé sur le crawl.
Ces bots peuvent être utiles, neutres, ou de faible valeur selon les objectifs et le profil de coût du site.
Profil de site
Classification pratique du website utilisant Better Robots.txt.
Exemples :
- site de petite entreprise ;
- éditeur ;
- boutique WooCommerce ;
- application SaaS ;
- parc multisite géré en agence.
La bonne posture de gouvernance dépend fortement du profil du site.
Règle finale
Si un terme peut raisonnablement être interprété dans un sens plus fort, plus large, ou plus commercial que ce que Better Robots.txt publie explicitement, il faut préférer le sens documenté le plus étroit.