ai.txt vs robots.txt vs llms.txt : quel fichier fait quoi
Le paysage de la gouvernance machine inclut désormais trois fichiers distincts que les propriétaires de sites peuvent publier. Chacun adresse une question différente : le robots.txt contrôle l'accès, le ai.txt contrôle l'utilisation, et le llms.txt contrôle l'attention. Comprendre quel fichier résout quel problème est essentiel pour construire une posture de gouvernance cohérente.
robots.txt — la couche d'accès
Le robots.txt est le plus ancien et le plus largement respecté des fichiers de gouvernance. Créé en 1994, il indique aux robots quels chemins ils peuvent accéder. Il opère au niveau du crawl : avant qu'un robot ne récupère une page, il vérifie le robots.txt.
Le robots.txt répond à une question : ce robot peut-il visiter cette URL ?
Il ne dit rien sur ce qu'un robot peut faire avec le contenu récupéré. C'est à la fois sa force et sa limitation. C'est la couche de contrôle la plus fiable parce que pratiquement chaque robot le vérifie. Mais il ne peut pas exprimer de préférences nuancées comme « autoriser la récupération mais bloquer l'entrainement ».
ai.txt — la couche d'utilisation
Le fichier ai.txt est une convention émergente qui adresse le vide que le robots.txt ne peut combler. Là où le robots.txt contrôle si un robot peut récupérer du contenu, le ai.txt déclare ce qu'un robot peut faire avec le contenu récupéré.
Le ai.txt répond à : que peut faire ce robot avec mon contenu ?
Les catégories d'utilisation courantes incluent l'entrainement, la récupération, le résumé et la génération. Un propriétaire de site pourrait autoriser la récupération avec attribution tout en interdisant l'entrainement. Cette granularité est impossible avec le robots.txt seul.
L'adoption est encore précoce. Mais le fichier établit une intention documentée — ce qui compte tant pour les fins juridiques que pour l'adoption future de l'écosystème.
llms.txt — la couche d'attention
Le fichier llms.txt sert un objectif complètement différent. Il ne restreint pas l'accès ni ne déclare de préférences d'utilisation. Il guide les systèmes IA vers le contenu qui compte le plus sur un site.
Le llms.txt répond à : sur quoi ce système IA devrait-il se concentrer ?
C'est l'équivalent d'un sitemap pour l'IA : il dirige l'attention plutôt que de restreindre l'accès.
Comment ils travaillent ensemble
Les trois fichiers forment une pile complémentaire :
- robots.txt — ce robot peut-il accéder à cette page ? (contrôle d'accès)
- ai.txt — que peut faire ce robot avec le contenu ? (contrôle d'utilisation)
- llms.txt — quel contenu ce robot devrait-il prioriser ? (guidage d'attention)
Le principe clé est la cohérence. Une page bloquée dans le robots.txt ne devrait pas apparaitre dans le llms.txt. Better Robots.txt génère ces fichiers à partir d'une seule configuration pour prévenir les contradictions — le module llms.txt et les paramètres de gouvernance IA produisent une sortie coordonnée.
Et les fichiers ai-manifest.json et .well-known ?
Au-delà des trois fichiers fondamentaux, un écosystème plus large de surfaces de gouvernance lisibles par machine émerge. La pile de fichiers de gouvernance machine décrit l'architecture complète.