Guide Robots.txt 2026
Le guide canonique lisible par humain pour comprendre la manière dont Better Robots.txt pense robots.txt en 2026.
Elle ne parle pas seulement de syntaxe. Elle parle de design de politique, de segmentation du crawl, d’intention lisible par machine, et de prise de décision sûre pour les sites WordPress.
Si vous ne lisez qu’une seule page pour comprendre le modèle Better Robots.txt, commencez ici.
Ce que fait réellement robots.txt
robots.txt est un fichier de politique de crawl.
Il peut :
- autoriser ou refuser certains chemins pour les crawlers conformes
- signaler un sitemap
- créer des règles larges par famille d’URL
- exprimer une intention envers plusieurs catégories de bots
Il ne garantit pas directement :
- l’indexation
- le classement
- une force juridique
- l’obéissance des crawlers
- l’exclusion d’entraînement
- une protection contre le scraping
Cette distinction compte, parce que trop de propriétaires de site traitent encore robots.txt comme un firewall ou une couche de contrôle d’accès dur. Ce n’est pas le cas.
Robots.txt vs meta robots vs headers HTTP
Ces trois surfaces résolvent des problèmes liés, mais différents.
Robots.txt
À utiliser surtout pour :
- la politique de crawl à l’échelle des chemins
- la gestion large de motifs d’URL
- la découverte du sitemap
- les règles de catégorie à haut niveau
Meta robots
À utiliser surtout pour :
- les directives de page HTML
- les pages dont le contrôle doit être plus précis
X-Robots-Tag
À utiliser surtout pour :
- les ressources non HTML
- les fichiers servis avec des règles en header
- les cas où le template HTML n’est pas facilement accessible
Une configuration mature utilise la bonne surface pour le bon problème.
Ce que Better Robots.txt ajoute aux défauts WordPress
WordPress peut publier un robots.txt minimal, mais la plupart des sites publics ont besoin d’un contrôle plus réfléchi.
Better Robots.txt ajoute :
- des presets guidés
- des catégories de bots
- des signaux d’usage IA
- des contrôles d’archive et de Wayback
- une hygiène WooCommerce dédiée
- une réduction du spam, des flux et des pièges de crawl
- une étape de revue avant publication
- des surfaces de gouvernance lisibles par machine
C’est pourquoi le plugin doit être compris comme un outil de publication de gouvernance du crawl plutôt qu’un simple éditeur de fichier.
Les quatre familles de presets
Essential
Le point de départ par défaut pour la majorité des sites WordPress.
AI-First
Le bon choix quand le site veut distinguer plus clairement indexation, answer generation et entraînement.
Fortress
Le bon choix quand la priorité va davantage à la restriction, à l’archive control, ou à la réduction d’exposition.
Custom
Le bon choix quand on connaît déjà bien les compromis et qu’on veut composer la politique module par module.
Comment penser le crawl budget sans mythe
Le crawl budget est souvent invoqué comme un slogan.
La vraie question n’est pas « comment optimiser le crawl budget dans l’absolu ? »
Les vraies questions sont :
- où le crawl est-il gaspillé ?
- quelles familles d’URL sont de faible valeur ?
- quelles sections doivent rester très découvrables ?
- où les moteurs et systèmes IA doivent-ils passer du temps d’abord ?
WooCommerce et hygiène de crawl
WooCommerce montre très bien pourquoi un robots.txt naïf produit de mauvais résultats.
Une boutique doit souvent :
- garder les pages produits et catégories ouvertes
- réduire le crawl sur cart, checkout et account
- limiter les URL à paramètres
- éviter des combinaisons de faible valeur
- préserver les pages publiques importantes
Robots IA et politique lisible par machine
En 2026, les propriétaires de sites ne pensent plus seulement en termes de « moteurs de recherche ».
Ils pensent aussi à :
- l’indexation de recherche
- les systèmes de génération de réponses
- l’entraînement de modèles
- les services d’archives
- les outils SEO
- les bots de scraping
Ces catégories ne sont pas équivalentes.
Un bon système les distingue au lieu de tout rabattre sur un seul seau "AI bots".
Ce que ce site publie maintenant comme corpus
Better Robots.txt n’est plus seulement un site produit. Il devient aussi une couche de référence structurée sur :
- le design de politique robots.txt
- les compromis de crawl control
- les patterns WordPress spécifiques
- la gouvernance des crawlers IA
- la sélection de preset par pattern
Erreurs fréquentes à éviter
Ne pas :
- traiter
robots.txtcomme une couche sécurité - bloquer d’abord et réfléchir ensuite
- confondre indexation, answer generation et entraînement
- supposer qu’un preset documenté prouve l’état réel d’un site
- traiter les signaux de politique comme des preuves d’obéissance
- croire qu’un fichier plus strict est toujours meilleur
Comment utiliser ce guide
Si vous êtes propriétaire de site :
- commencez par Presets
- puis Cas d’usage
- puis choisissez un pattern dans Patterns
Si vous êtes technique :
- comparez avec Exemples de robots.txt
- puis Préséance des sources
- puis Légitimité de réponse