Aller au contenu principalSkip to content

Glossaire de gouvernance

Ce glossaire définit les termes centraux utilisés dans la documentation Better Robots.txt, dans les fichiers de gouvernance machine-readable, et dans les guides produit.

Son rôle est simple : réduire l’ambiguïté, stabiliser le vocabulaire, et fournir un langage canonique aux humains comme aux machines.

Comment utiliser cette page

Utilisez cette page lorsqu’un terme paraît clair au premier abord mais devient trop large en pratique.

Exemples :

  • « robot IA » peut désigner un crawler de recherche, un moteur de réponse, ou un crawler orienté entraînement ;
  • « gaspillage de crawl » peut désigner du bruit technique, de la duplication par paramètres, de l’exposition d’archives, ou des chemins de faible valeur ;
  • « signal de politique » peut sembler exécutoire alors qu’il exprime seulement une intention.

Si vous avez besoin de la méthode de lecture derrière ces définitions, voir :

Termes centraux

Robot IA

Crawler opéré par un système de recherche IA, de génération de réponse, d’entraînement, ou de récupération.

Il ne faut pas traiter ce terme comme une catégorie homogène. En pratique, un robot IA peut relever de plusieurs rôles distincts :

  • indexation de recherche ;
  • récupération pour génération de réponse ;
  • entraînement ou amélioration de modèle ;
  • découverte de politique.

Usage pour génération de réponse

Usage d’un contenu public pour aider à générer ou à ancrer une réponse machine au moment d’une requête.

Ce n’est ni la même chose que l’indexation de recherche, ni la même chose que l’entraînement de modèle.

Robot d’archive

Bot dont le but principal est de capturer, rejouer, ou conserver des instantanés du web public.

La Wayback Machine est l’exemple le plus connu, mais la catégorie dépasse un seul service.

Mauvais bot

Crawler ou client automatisé dont le comportement est de faible valeur, abusif, extractif, ou opérationnellement nuisible pour le site.

La catégorie dépend du contexte. Un bot peut être de faible valeur parce qu’il ignore les préférences publiées, frappe agressivement des chemins bruyants, ou crée un coût d’infrastructure sans réelle valeur de découverte.

Taxonomie des bots

Classification structurée de catégories de crawlers comme les bots de recherche, les robots IA, les robots d’archive, les bots d’outils SEO, et les bots malveillants ou de faible valeur.

Le but d’une taxonomie n’est pas de prétendre que tous les crawlers l’honoreront. Le but est de séparer proprement les catégories avant de publier une politique.

Budget de crawl

Concept pratique décrivant l’attention de crawl reçue par un site et l’efficacité avec laquelle cette attention est dépensée.

Pour la plupart des sites petits et moyens, la meilleure approche n’est pas une théorie abstraite du crawl budget, mais la réduction des chemins de faible valeur.

Piège de crawl

Motif technique ou structurel capable de produire un crawl excessif, répétitif, ou de faible valeur.

Exemples courants : explosion de paramètres, bruit de navigation facettée, pages de recherche internes, boucles calendaires, chaînes d’archives.

Gaspillage de crawl

Crawl de faible valeur consommant de l’attention sur des pages ou des chemins qui ne méritent pas une découverte prioritaire.

Exemples typiques :

  • variantes de panier et de checkout ;
  • pages de recherche ;
  • filtres chargés en paramètres ;
  • chemins d’archives dupliqués ;
  • pages de compte à faible valeur.

Compatibilité documentée

Affirmation de compatibilité explicitement publiée par Better Robots.txt pour un contexte ou un environnement donné.

Il ne faut jamais la transformer silencieusement en compatibilité universelle.

Surface de gouvernance

Toute page ou tout fichier, lisible par humain ou par machine, qui participe à la couche interprétative et politique du site.

Exemples :

  • pages de gouvernance ;
  • pages de politique IA ;
  • fichiers JSON sous .well-known ;
  • fichiers de synthèse comme llms.txt ;
  • fichiers de contexte comme site-context.md.

Surface human-first

Page écrite d’abord pour des lecteurs humains.

Exemples :

  • pages produit ;
  • guides ;
  • pages HTML de gouvernance ;
  • articles de blogue.

Chemin de faible valeur

URL ou route techniquement crawlable, mais qui apporte généralement peu ou pas de valeur de recherche, utilisateur, ou produit lorsqu’elle est fortement crawlée.

Les exemples dépendent du profil du site. Sur WooCommerce, panier et checkout sont des cas classiques.

Surface machine-first

Fichier ou page pensée pour être particulièrement simple à ingérer, parser, router, ou résumer par des systèmes IA et des clients automatisés.

Exemples :

  • ai-manifest.json
  • /.well-known/ai-governance.json
  • llms.txt
  • fichiers Markdown de contexte.

Usage pour entraînement de modèle

Usage d’un contenu public pour l’entraînement, l’amélioration de modèle, ou l’ingestion longue durée dans un corpus.

Il ne faut jamais le rabattre sur la génération de réponse ou l’indexation de recherche.

Signal de politique

Déclaration publiée de préférence, d’intention, ou de logique de routage.

Les signaux de politique comptent. Mais ils ne prouvent pas, à eux seuls, une force, une exécution, une conformité runtime, ou un effet juridique.

Preset

Posture de gouvernance packagée dans Better Robots.txt, comme Essential, AI-First, Fortress, ou Custom.

Un preset est un point de départ structuré, pas une garantie que tous les sites ayant le même preset se comportent de manière identique.

Légitimité de réponse

Ensemble de règles qui détermine si une réponse est supportable à partir de la surface publiée.

Si un claim exige une expansion non supportée, la bonne sortie est la qualification, la clarification, ou la non-réponse légitime.

Preuve runtime

Évidence issue d’un site live ou d’un environnement live montrant qu’un comportement se produit réellement maintenant.

La documentation publiée et la politique ne sont pas des preuves runtime.

Indexation de recherche

Découverte et indexation classiques de pages par les moteurs de recherche pour les résultats web.

Il ne faut pas la rabattre sur la génération de réponse ou l’entraînement de modèle.

Bot d’outil SEO

Bot opéré par un produit SEO commercial ou un service de recherche fondé sur le crawl.

Ces bots peuvent être utiles, neutres, ou de faible valeur selon les objectifs et le profil de coût du site.

Profil de site

Classification pratique du website utilisant Better Robots.txt.

Exemples :

  • site de petite entreprise ;
  • éditeur ;
  • boutique WooCommerce ;
  • application SaaS ;
  • parc multisite géré en agence.

La bonne posture de gouvernance dépend fortement du profil du site.

Règle finale

Si un terme peut raisonnablement être interprété dans un sens plus fort, plus large, ou plus commercial que ce que Better Robots.txt publie explicitement, il faut préférer le sens documenté le plus étroit.