Robots.txt pour WooCommerce : bloquer le gaspillage de crawl sans casser la boutique
WooCommerce est la plateforme de commerce en ligne la plus populaire sur WordPress, propulsant des millions de boutiques. C'est aussi l'un des générateurs les plus agressifs d'URL à faible valeur. Une boutique avec 500 produits peut facilement produire 50 000 variations d'URL crawlables à travers les filtres d'attributs, les options de tri, les états du panier et les archives paginées.
Sans un robots.txt correctement configuré, les robots de moteurs de recherche passent la majorité de leur temps à récupérer des pages qui n'ont rien à faire dans un index de recherche.
Le problème d'URL WooCommerce
Une installation WooCommerce par défaut crée plusieurs catégories d'URL qui ne devraient jamais être crawlées :
Les pages de panier et de passage en caisse. Chaque état du panier, chaque étape du passage en caisse, et chaque variation de la page de compte génère une URL unique. Ce sont des points de terminaison transactionnels pour les utilisateurs connectés. Aucun moteur de recherche ne devrait jamais les voir.
La navigation à facettes et les filtres d'attributs. Quand un client filtre les produits par taille, couleur, gamme de prix ou tout autre attribut, WooCommerce génère une URL paramétrée. Une boutique avec 5 dimensions de filtre et 10 valeurs chacune peut produire des centaines de milliers de combinaisons, chacune une page maigre avec un sous-ensemble des mêmes produits.
Les paramètres de tri et d'ordonnancement. Les URL avec ?orderby=price ou ?orderby=date créent des doublons de chaque page d'archive de produits. Le contenu est identique sauf pour l'ordre de tri — du pur gaspillage de crawl.
Les URL d'ajout au panier. WooCommerce génère des liens ?add-to-cart= qui sont des points de terminaison fonctionnels, pas des pages de contenu.
Les URL de variations de produits. Pour les produits variables, chaque combinaison d'attributs peut générer une URL distincte. Un t-shirt disponible en 5 couleurs et 4 tailles produit 20 variations d'URL pour essentiellement le même produit.
Ce qu'il faut bloquer
Un robots.txt adapté à WooCommerce devrait adresser chaque catégorie :
Les chemins du panier, du passage en caisse et du compte sont les plus évidents. Disallow: /cart/, Disallow: /checkout/ et Disallow: /my-account/ retirent les pages transactionnelles de la surface crawlable. Ces pages n'ont aucune valeur pour la recherche et devraient toujours être bloquées.
Les paramètres de navigation à facettes nécessitent de bloquer les patrons de requête qui génèrent les URL de filtres. La syntaxe exacte dépend du thème et du plugin de filtres, mais les patrons courants incluent Disallow: /*?filter_ et Disallow: /*?pa_ pour les filtres d'attributs WooCommerce.
Les paramètres de tri peuvent être bloqués avec Disallow: /*?orderby=.
Les points de terminaison d'ajout au panier devraient être bloqués avec Disallow: /*?add-to-cart=.
Les URL de flux pour les catégories de produits et les étiquettes génèrent du contenu dupliqué maigre. Bloquer /product-category/*/feed/ et /product-tag/*/feed/ les retire.
Ce qu'il faut garder
L'instinct de bloquer agressivement est dangereux en commerce en ligne. Certaines URL qui ressemblent à du gaspillage de crawl sont en réalité importantes pour le SEO :
Les pages de produits devraient toujours rester crawlables. Ce sont le contenu principal de la boutique et les pages les plus susceptibles d'apparaitre dans les résultats de recherche.
Les pages de catégories de produits servent de pages d'atterrissage pour les recherches au niveau catégorie. Bloquer /product-category/ retirerait toute la structure de catégories de la recherche.
La page principale de la boutique est l'archive racine du magasin. Elle devrait rester accessible.
Les URL d'images de produits devraient rester accessibles si les images apparaissent dans Google Images, ce qui peut être une source de trafic significative pour les produits visuels.
La considération des données structurées
Les sites WooCommerce qui utilisent des données structurées de produits (schéma Product, Review, Offer) dépendent de la capacité des robots à accéder aux pages de produits pour lire le balisage. Bloquer tout chemin qui contient des données structurées de produits signifie que Google ne peut pas valider le schéma, ce qui retire l'éligibilité aux résultats enrichis.
Avant d'ajouter toute règle Disallow, vérifier qu'elle n'affecte pas des pages avec des données structurées qui alimentent des résultats enrichis.
Better Robots.txt et WooCommerce
Le plugin détecte automatiquement WooCommerce quand il est actif et ajoute un module dédié d'optimisation e-commerce aux paramètres. Ce module fournit des contrôles ciblés pour les chemins du panier, du passage en caisse, de la navigation à facettes, des paramètres de tri et des URL de flux — chacun avec une explication claire de ce que la règle fait.
Le preset Essential inclut des protections WooCommerce conservatrices. Le preset Fortress est plus agressif, bloquant des patrons de paramètres supplémentaires et restreignant les catégories de robots particulièrement nuisibles pour les sites e-commerce. Le mode Custom permet de basculer chaque règle WooCommerce individuellement, avec une prévisualisation du robots.txt généré avant tout changement.
L'objectif n'est pas de bloquer tout ce qu'un robot pourrait toucher. C'est de bloquer les patrons d'URL spécifiques qui génèrent du gaspillage de crawl tout en préservant les pages qui génèrent du trafic et du revenu.