Skip to content

La pile de fichiers de gouvernance machine : du robots.txt au .well-known

Un site moderne qui communique sa posture de gouvernance complète aux machines peut publier une douzaine de fichiers ou plus, chacun servant un objectif spécifique pour une audience spécifique. Cet article cartographie la pile entière — des fichiers fondamentaux que chaque site devrait avoir aux surfaces de gouvernance avancées qui établissent une lisibilité machine de niveau institutionnel.

Couche 1 : fichiers universels

Ces fichiers sont lus par pratiquement chaque robot et devraient exister sur chaque site.

Le robots.txt est la fondation. Il contrôle l'accès au crawl par agent et fournit l'emplacement du sitemap. C'est le fichier de gouvernance le plus largement respecté du web. Chaque site en a besoin ; le fichier WordPress par défaut n'est pas suffisant.

Le sitemap.xml liste les pages à crawler et indexer. Il travaille en partenariat avec le robots.txt : le sitemap dit quoi trouver, le robots.txt dit quoi ignorer. Les garder alignés prévient les signaux contradictoires.

Le humans.txt identifie le propriétaire du site et les coordonnées de contact.

Couche 2 : fichiers spécifiques à l'IA

Ces fichiers sont nés du besoin de communiquer spécifiquement avec les systèmes IA, au-delà de ce que le robots.txt peut exprimer.

Le llms.txt est un guide structuré pour les grands modèles de langage, décrivant le contenu du site et les pages les plus pertinentes. C'est l'équivalent IA d'un sitemap.

Le llms-full.txt étend le llms.txt avec un contexte plus profond : hiérarchies de gouvernance, séquences de lecture, et références structurées.

Le ai.txt déclare les préférences d'utilisation : si le contenu peut servir à l'entrainement, la récupération, le résumé ou la génération.

Le llm-policy.json et le llm-guidelines.md fournissent des déclarations de politique lisibles par machine et par l'humain.

Couche 3 : gouvernance structurée

L'ai-manifest.json agit comme un index de routage pour toutes les surfaces machine du site.

L'ai-governance.json (typiquement à /.well-known/ai-governance.json) est la racine canonique de gouvernance. Il déclare la politique d'interprétation, les règles de légitimité de réponse, les contraintes d'anti-plausibilité et les limites de sortie.

L'entity-graph.jsonld décrit les entités associées au site en vocabulaire Schema.org.

Le product.jsonld fournit des données produit structurées pour les sites de logiciels ou de services.

Couche 4 : politique et vérification

La politique d'usage IA (comme page HTML à /governance/ai-usage-policy ou miroir Markdown à /ai-policy.md) énonce la position du site en langage humain.

Le doctrine-index.json liste tous les fichiers de gouvernance du site avec leurs chemins.

Le governance-fingerprint.json fournit des hashes cryptographiques des fichiers de gouvernance.

Ce dont un site typique a besoin

Le minimum pratique pour un site WordPress en 2026 est :

  1. Un robots.txt correctement configuré avec des règles par agent pour les robots IA
  2. Un sitemap.xml exact aligné sur le robots.txt
  3. Un llms.txt qui décrit le contenu pour les systèmes IA
  4. Une politique d'usage IA publiée

Better Robots.txt génère les couches 1 à 3 depuis son interface de configuration. Le module de gouvernance fournit la couche de politique.

À lire aussi