Aller au contenu principalSkip to content

ai.txt vs robots.txt vs llms.txt : quel fichier fait quoi

Un site moderne peut désormais publier plusieurs fichiers lisibles par machine en parallèle.

La tentation consiste à demander quel fichier unique « règle la gouvernance IA ».

C’est la mauvaise question.

Ces fichiers ne se remplacent pas. Ils résolvent différentes parties du même problème.

Le modèle mental le plus propre est celui-ci :

  • robots.txt = accès
  • ai.txt ou les signaux d’usage voisins = usage
  • llms.txt = attention

Et même ce trio ne constitue pas toute la pile.

robots.txt est la couche d’accès

robots.txt reste le premier fichier de gouvernance que la plupart des crawlers consultent.

Il répond à une question simple :

Ce crawler peut-il récupérer cette URL ?

Cela en fait la surface naturelle pour :

  • les règles de crawl par agent ;
  • la logique allow / disallow par chemin ;
  • le contrôle du crawl Search classique ;
  • de nombreux opt-out de crawlers d’entraînement ;
  • l’hygiène de crawl sur les chemins de faible valeur.

Sa force est sa portabilité et son adoption.

Mais sa limite est tout aussi importante : robots.txt ne dit rien de précis sur ce qu’un crawler peut faire du contenu après récupération.

ai.txt et les signaux d’usage voisins forment la couche d’usage

La fonction d’un fichier de type ai.txt est différente.

On n’est plus dans l’accès au crawl, mais dans l’usage aval.

La question devient :

Quels types d’usage IA est-ce que j’autorise sur ce contenu ?

Cela peut inclure des distinctions comme :

  • l’entraînement ;
  • la récupération ;
  • le résumé ;
  • la génération ;
  • l’injection dans un modèle au moment de la requête.

L’écosystème reste inégal sur cette couche. Le support n’est pas universel. Les acteurs ne documentent pas tous les mêmes mécanismes.

C’est pourquoi il est souvent plus sûr de raisonner en termes de couche d’usage au sens large plutôt qu’en termes de fichier magique unique. Selon le système, cette couche peut passer par :

  • ai.txt ;
  • des fichiers de politique d’usage IA ;
  • des directives de type Content-Signal comme search, ai-input, et ai-train ;
  • des surfaces JSON structurées de gouvernance.

L’idée clé reste la même :

l’accès au crawl et l’usage aval ne sont pas la même décision.

llms.txt est la couche d’attention

llms.txt résout encore un autre problème.

Il ne décide pas principalement de l’accès. Il ne décide pas principalement des droits d’usage aval.

Il aide les lecteurs machine à comprendre ce qui compte le plus sur le site.

Il répond à :

Sur quoi un modèle ou un lecteur machine devrait-il se concentrer en priorité ?

C’est ce qui le rend utile pour :

  • pointer vers la documentation principale ;
  • mettre en avant les pages de plus forte valeur ;
  • compresser un parcours de lecture ;
  • réduire la probabilité qu’un modèle commence par des pages de faible valeur.

C’est pourquoi llms.txt fonctionne surtout comme une couche de guidage, pas comme une couche d’enforcement.

Pourquoi le modèle à 3 fichiers est utile, mais reste incomplet

Le modèle à 3 fichiers est utile parce qu’il évite l’effondrement conceptuel.

Sans lui, les équipes demandent à un seul fichier de tout résoudre.

Mais le contrôle moderne dépasse malgré tout ces trois surfaces.

Le comportement d’indexation et de snippet Search reste ailleurs

Si la vraie question porte sur l’indexation Search, les aperçus, ou les snippets, la bonne couche n’est souvent ni ai.txt ni llms.txt.

C’est plutôt la couche des contrôles Search à la page comme :

  • meta robots
  • X-Robots-Tag
  • noindex
  • nosnippet
  • data-nosnippet
  • max-snippet

Les agents déclenchés par l’utilisateur peuvent sortir de la logique classique du crawl

Certains trafics agentiques sont initiés par un utilisateur plutôt qu’automatiques.

Dans ce cas, robots.txt peut ne plus constituer la réponse de contrôle complète.

C’est particulièrement important lorsqu’un fournisseur distingue explicitement crawl automatique et accès déclenché par l’utilisateur.

Les agents signés déplacent le problème vers l’infrastructure

Dès que le trafic est signé, vérifié, ou allowlisté au niveau du CDN ou du WAF, on sort du modèle à 3 fichiers.

La bonne réponse peut alors impliquer :

  • l’allowlisting côté edge ;
  • la vérification de bots ;
  • des règles d’infrastructure ;
  • des permissions d’exécution.

La meilleure question : quelle surface de contrôle correspond au vrai problème ?

Au lieu de demander quel fichier gagne, il vaut mieux demander quelle surface correspond réellement au problème.

ProblèmeSurface principale
Autoriser ou bloquer le crawl par agent et par cheminrobots.txt
Exprimer une posture d’usage IA avalai.txt, signaux d’usage IA, ou surfaces d’usage associées
Guider les modèles vers le bon contenullms.txt
Contrôler l’indexation Search ou le comportement de snippetmeta robots / X-Robots-Tag
Publier une précédence et un contexte de politique lisible par machineJSON de gouvernance et surfaces de policy
Autoriser des agents signés ou vérifiésedge / CDN / WAF

C’est la raison pratique pour laquelle Better Robots.txt doit être compris comme une pile de gouvernance, et non comme un simple générateur de fichier unique.

Comment Better Robots.txt aborde cette pile

Better Robots.txt aide à garder cette pile plus cohérente.

Il aide à aligner :

  • la politique de crawl ;
  • la posture d’usage IA ;
  • le guidage llms.txt ;
  • les explications de gouvernance plus larges et les points d’entrée machine.

Cela ne signifie pas que tous les écosystèmes lisent tous les fichiers.

Cela signifie que le propriétaire du site publie une position plus claire et plus cohérente entre les couches existantes.

Le principe central

Le principe le plus sûr n’est pas « publier un fichier IA magique ».

Le principe le plus sûr est :

séparer accès, usage, attention, et enforcement.

C’est ainsi qu’on évite à la fois la surpromesse et la contradiction de politique.

À lire aussi