llms.txt : le compagnon du robots.txt pour les systèmes IA
Le robots.txt dit aux machines ce qu'elles ne peuvent pas accéder. Mais il ne dit rien sur ce qu'elles devraient prioriser quand l'accès est accordé. Pour les moteurs de recherche, le sitemap comble cette lacune. Pour les systèmes IA, un nouveau fichier émerge pour servir un objectif similaire : llms.txt.
Ce qu'est le llms.txt
Le fichier llms.txt est un document en texte brut placé à la racine d'un site web, conçu pour aider les grands modèles de langage à comprendre la structure, la finalité et le contenu pertinent du site. C'est un résumé lisible par machine — une façon de dire aux systèmes IA de quoi parle le site, quel contenu compte, et comment le site devrait être représenté.
Contrairement au robots.txt, qui utilise une syntaxe de directives stricte (User-agent, Disallow, Allow), le llms.txt utilise un format plus souple et lisible par l'humain, basé sur les conventions Markdown. Il inclut typiquement une description du site, une liste de pages importantes avec de brèves explications, et optionnellement, des liens vers de la documentation plus détaillée.
La spécification définit aussi une variante étendue, llms-full.txt, qui fournit un contexte plus riche : politiques de gouvernance, hiérarchies de contenu, fréquences de mise à jour, et références structurées à des fichiers de politique lisibles par machine comme ai-manifest.json ou ai-governance.json.
Pourquoi il existe
Le robots.txt répond à une question binaire : ce robot peut-il accéder à ce chemin, oui ou non ? Mais quand un système IA est autorisé à accéder au contenu, il fait face à une question bien plus complexe : qu'est-ce qui vaut la peine d'être lu sur ce site ?
Un grand site peut contenir des milliers de pages. Certaines sont du contenu essentiel. Certaines sont administratives. Certaines sont obsolètes. Certaines sont des doublons dans différents formats. Sans orientation, un système IA soit crawle tout (coûteux et bruyant), soit se fie à des heuristiques (suivre les liens, deviner l'importance à partir de la structure d'URL). Les deux approches sont imprécises.
Le llms.txt fournit une orientation explicite. Il dit au système IA : voici les pages qui comptent, voici ce que chacune contient, et voici comment elles sont reliées entre elles. C'est à peu près ce qu'un sitemap fait pour les moteurs de recherche, mais dans un format conçu pour la façon dont les systèmes IA traitent l'information — par le langage naturel et le contexte structuré plutôt que par des listes d'URL et des scores de priorité.
En quoi le llms.txt diffère du robots.txt
Les deux fichiers servent des objectifs fondamentalement différents :
Le robots.txt concerne le contrôle d'accès. Il restreint ce que les robots peuvent récupérer. Il est préventif, défensif et binaire.
Le llms.txt concerne le guidage de contenu. Il décrit ce qui compte et pourquoi. Il est informatif, additif et contextuel.
Ils ne sont pas des alternatives. Un site bien gouverné utilise les deux : le robots.txt pour fixer les limites d'accès, et le llms.txt pour guider les systèmes IA à l'intérieur de ces limites.
En quoi le llms.txt diffère du ai.txt
Un autre fichier émergent, le ai.txt, adresse une couche différente du problème de gouvernance. Là où le llms.txt décrit le contenu et la structure, le ai.txt déclare des préférences d'utilisation : si le contenu peut être utilisé pour l'entrainement, la récupération, le résumé ou la génération.
Les trois fichiers forment une pile complémentaire :
Le robots.txt contrôle l'accès (ce robot peut-il visiter cette page ?). Le ai.txt contrôle l'utilisation (que peut faire ce robot avec le contenu ?). Le llms.txt contrôle l'attention (sur quoi ce robot devrait-il se concentrer ?).
Chaque fichier adresse une question différente, et chacun est utile indépendamment. Mais utilisés ensemble, ils fournissent aux systèmes IA un portrait complet : où aller, quoi lire, et ce que le propriétaire du site autorise.
Ce que contient un fichier llms.txt
Un llms.txt minimal contient trois sections :
Une description du site qui explique ce qu'est le site, qui le publie, et quel type de contenu il offre. Cela donne au système IA un contexte immédiat sans devoir crawler plusieurs pages.
Une liste de pages clés avec de brèves descriptions. Chaque entrée inclut une URL et une explication d'une ligne de ce que la page contient. Cela agit comme une table des matières sélectionnée.
Des métadonnées optionnelles sur la fréquence de mise à jour, la langue du contenu et des liens vers les fichiers de gouvernance.
Un llms-full.txt va plus loin, fournissant des descriptions étendues, des emplacements de fichiers de gouvernance, des hiérarchies de contenu, et des références structurées à des documents de politique lisibles par machine.
L'adoption actuelle
En ce début de 2026, le llms.txt n'est pas encore un standard formel avec un RFC publié. C'est une convention communautaire qui a gagné en traction par les adopteurs précoces et par le soutien de plusieurs entreprises IA qui ont exprimé leur intérêt à consommer des descriptions structurées de sites.
L'adoption est croissante mais inégale. La plupart des robots IA ne cherchent pas encore activement le llms.txt pendant leur processus de crawl. Toutefois, le fichier est de plus en plus référencé par les outils de recherche propulsés par l'IA et par les systèmes IA qui traitent les sites par des pipelines de génération augmentée par la récupération (RAG), où disposer d'une description structurée du site améliore significativement la qualité des réponses.
La logique stratégique pour les propriétaires de sites est similaire aux premiers jours du balisage Schema.org : adopter maintenant signifie être prêt quand la consommation deviendra standard, plutôt que de rattraper le retard après coup.
Comment Better Robots.txt supporte le llms.txt
Better Robots.txt inclut un module llms.txt dédié dans ses éditions Pro et Premium. Le module génère à la fois le llms.txt et le llms-full.txt à partir de la configuration du site, des paramètres du plugin et des choix de gouvernance. Les fichiers générés sont cohérents avec les règles robots.txt et les paramètres de gouvernance IA — le contenu bloqué dans le robots.txt n'apparait pas dans le llms.txt.
Cette coordination compte. Un llms.txt qui recommande des pages que le robots.txt bloque envoie un signal contradictoire. En générant les deux fichiers à partir de la même configuration, Better Robots.txt assure que les règles d'accès et le guidage de contenu s'accordent toujours.