Qui décide ce que les machines lisent sur votre site web
Chaque page publiée est lue par des machines. Les robots de moteurs de recherche l'indexent. Les robots IA peuvent l'utiliser pour l'entrainement ou la récupération en temps réel. Les services d'archivage en prennent un instantané. Les outils SEO la scrapent pour la veille concurrentielle. Les plateformes marketing extraient les métadonnées pour les prévisualisations de liens.
Rien de tout cela ne nécessite de permission explicite. Par défaut, publier une page sur le web ouvert est une invitation pour toute machine à la lire. La question n'est pas de savoir si les machines accèderont au contenu — elles le font déjà. La question est de savoir si les conditions ont été posées, ou si chaque robot opère selon ses propres hypothèses sur ce qui est permis.
Le défaut est l'accès ouvert
Quand un site web n'a pas de fichier robots.txt, la convention est que tout est permis. Tous les robots, toutes les pages, tous les usages. C'était un défaut raisonnable quand le web était principalement navigué par des moteurs de recherche qui renvoyaient du trafic aux éditeurs. L'échange était implicite mais équilibré : du contenu contre des visiteurs.
Ce contrat implicite se brise quand les machines qui lisent le contenu ne renvoient pas de visiteurs. Un modèle IA entrainé sur des articles ne fait pas de lien vers l'auteur. Un outil de veille concurrentielle qui scrape une page de prix n'attribue pas les données. Un service d'archivage qui capture l'intégralité d'un site ne demande pas si l'on souhaitait une copie publique permanente.
Le défaut de l'accès ouvert signifie que toute forme de consommation machine — utile, neutre ou extractive — est traitée de la même façon, sauf si l'on agit pour les différencier.
Pourquoi la différenciation compte
Tous les accès machine ne se valent pas. Un propriétaire de site pourrait vouloir :
- Que Google crawle et indexe tout, parce que le trafic de recherche est le moteur principal du business.
- Que les robots IA accèdent au blogue mais pas à la documentation produit, parce que le blogue construit la notoriété tandis que la documentation est de la valeur propriétaire.
- Que les services d'archivage prennent un instantané du site trimestriellement mais pas quotidiennement, parce que les instantanés quotidiens consomment de la bande passante sans ajouter de valeur.
- Que les outils SEO soient bloqués entièrement, parce que le scraping concurrentiel n'apporte aucun bénéfice.
- Que les mauvais robots soient bloqués et limités en débit au niveau de l'infrastructure.
Ce type d'accès différencié exige des règles explicites. Sans elles, l'intention du propriétaire de site est invisible pour chaque machine qui visite.
Le paysage des fichiers de gouvernance
Le robots.txt est le plus ancien et le plus largement respecté des fichiers de gouvernance. Mais il a été conçu pour une ère plus simple, et le paysage moderne inclut plusieurs fichiers complémentaires :
Le robots.txt reste la fondation. C'est le premier fichier que la plupart des robots vérifient, il supporte les règles par agent, et il a le taux de conformité le plus élevé dans toutes les catégories de robots. Sa limitation est qu'il ne contrôle que l'accès au crawl — il ne dit rien sur ce qu'un robot peut faire avec le contenu récupéré.
Le ai.txt est une convention émergente (pas encore un standard formel) qui permet aux propriétaires de sites de déclarer des préférences d'utilisation spécifiques à l'IA : si le contenu peut être utilisé pour l'entrainement, la récupération, le résumé ou la génération. Il adresse le vide que le robots.txt ne peut pas combler : pas seulement si un robot peut accéder au contenu, mais comment ce contenu peut être utilisé.
Le llms.txt est un fichier conçu spécifiquement pour les grands modèles de langage. Il fournit une description structurée de ce que le site contient et de ce qui est pertinent pour la consommation IA. C'est l'équivalent d'un sitemap pour l'IA : il guide les modèles vers du contenu utile au lieu de les laisser crawler à l'aveugle.
Le ai-manifest.json et les fichiers de politique lisibles par machine associés fournissent des déclarations structurées et analysables de la posture de gouvernance d'un site. Ils sont conçus pour le traitement automatisé plutôt que pour la lecture humaine, ce qui les rend adaptés à l'intégration dans les pipelines des systèmes IA.
Les balises meta et en-têtes HTTP (comme meta robots et X-Robots-Tag) fournissent un contrôle au niveau de la page et de la ressource, complétant les règles à l'échelle du site contenues dans le robots.txt.
Chaque fichier adresse une couche différente du problème de gouvernance. Utilisés ensemble, ils forment une pile qui communique l'intention à chaque type de visiteur machine.
La question de la propriété
L'enjeu plus profond derrière « qui décide ce que les machines lisent » est celui de la propriété. Quand on publie du contenu, on conserve le droit d'auteur. Mais le droit d'auteur s'exerce après coup — par des actions juridiques, des demandes de retrait et des litiges. Il n'empêche pas une machine de lire la page. Il donne des recours après que la lecture a eu lieu.
Les fichiers de gouvernance opèrent dans la couche préventive. Ils déclarent les préférences avant que l'accès n'ait lieu, créant un registre documenté de ce qu'on avait l'intention d'autoriser. Cette documentation a à la fois une valeur pratique (les robots bien élevés la suivront) et une valeur juridique (elle établit que l'utilisation non autorisée allait à l'encontre des souhaits déclarés).
La combinaison de fichiers de gouvernance techniques et de protections juridiques du droit d'auteur donne aux propriétaires de sites une défense en deux couches : la prévention par des règles documentées, et l'application par des cadres juridiques.
Passer du passif à l'actif
La plupart des propriétaires de sites sont dans une posture passive. Ils publient du contenu, ils ont peut-être un robots.txt de base, et ils présument que les moteurs de recherche et les autres robots se comportent raisonnablement. Ils découvrent les problèmes seulement quand quelque chose tourne mal : une page apparait dans une réponse générée par IA sans attribution, un outil concurrent scrape les prix, ou le serveur ralentit sous un trafic de robots inattendu.
Passer à une posture active signifie :
- Auditer quels robots accèdent actuellement au site (journaux du serveur, analytiques, rapports de trafic de robots).
- Décider quelles catégories d'accès on veut autoriser, restreindre ou bloquer.
- Implémenter ces décisions à travers le robots.txt et les fichiers de gouvernance supplémentaires.
- Surveiller la conformité dans le temps et ajuster les règles à mesure que l'écosystème évolue.
Ce n'est pas une configuration unique. L'écosystème des robots change constamment. De nouveaux robots apparaissent, les existants changent de comportement, et les normes juridiques et éthiques autour de l'entrainement IA continuent de se développer. Une posture de gouvernance correcte aujourd'hui peut nécessiter une révision dans six mois.
Le rôle du plugin
Better Robots.txt existe pour rendre cette transition du passif à l'actif aussi simple que possible. Il organise la décision en catégories (moteurs de recherche, robots IA, services d'archivage, outils SEO, mauvais robots), présente les options clairement, et génère la syntaxe robots.txt correcte. Le module de gouvernance étend cela aux fichiers de politique spécifiques à l'IA, créant une pile de signaux en couches à partir d'une seule interface de configuration.
L'objectif n'est pas de faire de chaque propriétaire de site un expert du robots.txt. C'est de faire de la décision sur l'accès machine une décision délibérée.