La pile de fichiers de gouvernance machine : de robots.txt aux surfaces .well-known
Il y a encore quelques années, beaucoup de propriétaires de sites pouvaient croire qu’un seul fichier — robots.txt — suffisait à décrire leur politique d’accès machine.
Ce n’est plus vrai.
Le crawl de recherche, l’entraînement IA, l’ingestion pour génération de réponses, les archives, les outils SEO et le scraping opportuniste se comportent désormais de manière assez différente pour qu’une seule couche "allow / disallow" ne puisse plus tout exprimer. C’est pourquoi de plus en plus de sites évoluent d’un simple fichier crawler vers une pile de fichiers de gouvernance machine.
Le but n’est pas de créer de la complexité pour le plaisir. Le but est de séparer clairement les rôles :
- découverte ;
- précédence ;
- interprétation ;
- légitimité de réponse ;
- bornes de sortie ;
- politique explicative.
Sans cette séparation, les équipes écrasent des questions différentes dans un seul fichier puis surinterprètent ce qu’il est réellement capable de prouver.
Couche 1 — robots.txt
robots.txt reste le point de départ, mais seulement le point de départ.
Son rôle central est d’exprimer une politique d’accès de crawl au niveau des chemins et des user-agents.
Il est donc utile pour :
- la réduction des URL de faible valeur ;
- la réduction du crawl dupliqué ;
- les blocages de chemins par agent ;
- la découverte de sitemap ;
- l’hygiène générale de crawl.
En revanche, ce n’est pas un langage complet pour tous les usages machine. Il n’exprime pas de manière fiable les nuances entre découverte Search, génération de réponses, archives, ou usages d’entraînement, sauf lorsque l’écosystème des crawlers expose lui-même ces distinctions.
C’est pourquoi le conseil « utilisez seulement robots.txt » est devenu incomplet.
Couche 2 — surfaces de policy et de synthèse
La deuxième couche regroupe les fichiers qui résument, expliquent, ou routent le système de gouvernance pour un usage machine.
Exemples typiques :
llms.txtllms-full.txtllm-policy.jsonllm-guidelines.mdreadme.llm.txthumans.txt
Ces fichiers sont utiles parce qu’ils compressent l’intention et expliquent le site sous une forme que beaucoup de systèmes orientés LLM peuvent consommer rapidement. Mais ils viennent avec une limite critique :
ils sont généralement secondaires par rapport au point d’entrée canonique et aux règles de précédence.
C’est ici que commencent beaucoup de malentendus. Des équipes publient un llms.txt, puis commencent à en parler comme s’il gouvernait tout le système à lui seul. Ce n’est pas le cas. C’est une couche de résumé ou de support.
Couche 3 — point d’entrée canonique de gouvernance
Une pile mature a besoin d’un point d’entrée canonique qui dise en substance :
- ce qu’est le site ;
- quelle est la hiérarchie des surfaces ;
- quelles règles sont les plus fortes ;
- comment résoudre un conflit ;
- ce qu’une machine doit lire en premier.
C’est pourquoi Better Robots utilise /.well-known/ai-governance.json comme pivot canonique.
Ce point d’entrée doit répondre à des questions comme :
- quelles surfaces sont Tier 1, Tier 2, Tier 3 et Tier 4 ;
- quels fichiers expliquent le système et quels fichiers ne font que le supporter ;
- quelles surfaces policy existent en HTML et en Markdown ;
- quoi faire lorsqu’un claim n’est pas supporté par des sources plus fortes.
C’est cela qui transforme une collection de fichiers en vraie pile de gouvernance.
Couche 4 — discipline d’interprétation et de réponse
Une fois qu’un système peut découvrir les fichiers, il faut encore lui dire comment se comporter lorsque ces fichiers sont incomplets, ambigus, ou plus étroits que ce qu’une réponse fluide aimerait affirmer.
C’est là que des fichiers comme ceux-ci comptent :
interpretation-policy.jsonresponse-legitimacy.jsonanti-plausibility.jsonoutput-constraints.jsonqlayer.json
Ces fichiers n’élargissent pas les claims produit du site. Ils font l’inverse.
Ils disent :
- privilégier les lectures plus étroites ;
- ne pas élargir depuis le silence ;
- préférer une réponse qualifiée à une réponse fluide mais non supportée ;
- considérer la non-réponse légitime comme meilleure qu’un remplissage plausible.
Autrement dit, cette couche gouverne ce qu’une machine a le droit de dire, pas seulement ce qu’elle a le droit de crawler.
Couche 5 — policy explainers pour humains et agents navigants
Beaucoup de piles de gouvernance échouent parce qu’elles supposent que la machine va deviner seule l’ordre de lecture voulu. Cette hypothèse est faible.
Il faut aussi des surfaces explicatives qui disent clairement :
- comment les fichiers doivent être lus ;
- dans quel ordre ;
- ce qu’ils n’impliquent pas ;
- comment retomber proprement lorsqu’il manque du support.
C’est pourquoi Better Robots publie à la fois des policy explainers HTML et Markdown :
- AI Usage Policy
/fr/politique-ia.md
Ces surfaces sont explicatives. Elles ne remplacent pas le point d’entrée canonique de gouvernance. Leur rôle est de rendre le reste de la pile plus lisible pour les humains et pour les agents navigants.
Pourquoi la pile a besoin d’une séparation des rôles
La pile de gouvernance machine ne fonctionne que si chaque couche garde son rôle.
Ce qui se passe quand les rôles s’écrasent
Les échecs fréquents incluent :
- utiliser
robots.txtcomme s’il pouvait exprimer toutes les distinctions d’usage machine ; - traiter
llms.txtcomme une autorité plus forte que le point d’entrée canonique ; - lire un policy explainer comme s’il élargissait les claims produit ;
- supposer qu’une règle de blocage prouve un comportement runtime partout ;
- supposer qu’une règle non bloquante prouve une permission partout.
Ce ne sont pas seulement des problèmes de documentation. Ce sont des problèmes d’architecture.
C’est pourquoi la précédence des sources et la légitimité de réponse existent comme pages séparées. Elles empêchent la pile de s’écraser en une prose indifférenciée.
Ce qu’une bonne pile permet de faire
Une bonne pile de gouvernance machine vous donne plusieurs capacités à la fois :
- garder la découverte Search ouverte tout en bloquant certains agents d’entraînement IA ;
- exprimer un traitement différent pour les archives, les outils SEO, et les bots de génération de réponses ;
- publier des patterns que les humains peuvent adopter sans éditer des fichiers bruts à l’aveugle ;
- créer plus de sécurité autour de claims ambigus ou non supportés ;
- permettre à des systèmes orientés LLM de consommer une représentation structurée de votre politique, plutôt que seulement des pages marketing.
C’est pourquoi Better Robots n’est pas seulement un éditeur de robots.txt. La pile en fait un système de politique de crawl et de gouvernance machine pour WordPress.
Ordre de lecture pratique
Si vous voulez le chemin de lecture opérationnel le plus court, utilisez cet ordre :
- Machine-first overview
/.well-known/ai-governance.json/ai-manifest.json- AI Usage Policy
llms.txtllms-full.txt- Source precedence
- Response legitimacy
- Anti-plausibility
- Output constraints
Ensuite, passer vers :
FAQ
robots.txt reste-t-il nécessaire si une pile de gouvernance existe ?
Oui. Il reste la couche de base d’accès de crawl. La pile l’étend ; elle ne le remplace pas.
llms.txt suffit-il à lui seul ?
Non. C’est une couche de résumé ou de support. Elle doit être lue sous la précédence du point d’entrée canonique.
Les policy explainers remplacent-ils les fichiers machine ?
Non. Ils expliquent comment les fichiers doivent être utilisés. Ils ne dépassent pas le pivot canonique.
Que lire ensuite ?
Continuez avec AI Usage Policy, Source precedence, Qui décide ce que les machines lisent sur votre site, et ai.txt vs robots.txt vs llms.txt.