Skip to content

Budget de crawl : ce que c'est et comment le robots.txt l'affecte

Le budget de crawl est l'un des concepts les plus mal compris en SEO technique. Les propriétaires de sites l'ignorent entièrement ou s'en obsèdent sans savoir s'il affecte réellement leur site. La vérité se trouve entre les deux : le budget de crawl compte pour certains sites et n'a aucune importance pour d'autres, et le robots.txt est l'un des outils les plus directs pour l'influencer.

Ce que le budget de crawl signifie réellement

Le budget de crawl est le nombre de pages qu'un moteur de recherche est disposé et capable de crawler sur un site dans une période donnée. Ce n'est pas un chiffre fixe publié quelque part. C'est une allocation interne que Google, Bing et les autres robots calculent à partir de deux facteurs.

Le premier facteur est la capacité de crawl. C'est le débit maximal auquel un robot peut récupérer des pages sans dégrader les performances du serveur. Si le serveur répond rapidement et gère bien les requêtes concurrentes, les robots récupèreront plus de pages. Si le serveur est lent ou retourne des erreurs, les robots réduiront la cadence.

Le deuxième facteur est la demande de crawl. C'est l'intérêt du moteur de recherche pour le site. Les pages populaires avec de nombreux liens entrants sont recrawlées fréquemment. Les pages qui n'ont pas changé depuis des mois le sont moins souvent. Les nouvelles pages sont découvertes et crawlées en fonction de leur liaison depuis le contenu indexé existant.

La combinaison de ces deux facteurs produit le budget de crawl effectif.

Quand le budget de crawl compte

Pour la plupart des sites WordPress petits à moyens — moins de 10 000 pages — le budget de crawl est rarement un goulot d'étranglement. Les moteurs de recherche peuvent confortablement crawler l'intégralité du site en une seule session.

Le budget de crawl devient significatif quand au moins une de ces conditions est vraie :

Le site a des dizaines de milliers de pages ou plus. Les grandes archives de contenu, les boutiques WooCommerce avec des catalogues étendus, ou les sites avec de la navigation à facettes peuvent générer des centaines de milliers d'URL crawlables.

Le site génère de nombreuses URL à faible valeur. Les résultats de recherche internes, les archives paginées, les doublons basés sur des paramètres et les URL de flux consomment du budget de crawl sans contribuer aux objectifs d'indexation.

Le site change fréquemment. Les sites d'actualité et les blogues qui publient plusieurs fois par jour ont besoin que les moteurs recrawlent leurs pages importantes rapidement. Chaque crawl gaspillé sur une page à faible valeur est un crawl qui n'a pas été consacré au contenu frais.

Les performances du serveur sont limitées. Les hébergements mutualisés ou les environnements à ressources contraintes peuvent ne pas supporter des taux de crawl agressifs.

Comment le robots.txt façonne le budget de crawl

Le robots.txt est le mécanisme le plus direct pour influencer la manière dont les robots allouent leur budget de crawl. Chaque URL qu'on interdit est une URL que les robots ne passeront pas de temps à récupérer, libérant cette capacité pour les pages qui comptent.

L'impact fonctionne par élimination, pas par priorisation. Le robots.txt ne dit pas aux robots quelles pages sont importantes. Il leur dit lesquelles ignorer. L'effet indirect est qu'en retirant les URL à faible valeur de la surface crawlable, on augmente la proportion de budget de crawl consacrée au contenu de valeur.

Les optimisations robots.txt courantes pour le budget de crawl incluent :

Bloquer les résultats de recherche internes. Les sites WordPress qui permettent la recherche visiteurs génèrent des URL uniques pour chaque requête. Une seule règle Disallow: /?s= les retire toutes de la surface crawlable.

Bloquer les archives paginées. Les URL comme /page/2/, /category/nom/page/3/ dupliquent du contenu déjà accessible par l'archive principale et le sitemap.

Bloquer les doublons basés sur des paramètres. Les identifiants de session, les paramètres de suivi, les ordres de tri et les combinaisons de filtres peuvent multiplier le nombre d'URL de manière exponentielle.

Bloquer les chemins administratifs. L'administration WordPress, les pages de connexion et les points de terminaison générés par les plugins n'ont aucune valeur pour la recherche.

Le partenariat robots.txt et sitemap

Le robots.txt et le sitemap fonctionnent comme des outils complémentaires pour l'optimisation du budget de crawl. Le robots.txt soustrait les pages à faible valeur de la surface crawlable. Le sitemap ajoute les pages à haute valeur à la file de découverte.

Ensemble, ils créent un signal clair : voici les pages qui valent la peine d'être crawlées (sitemap), et voici celles qui ne le valent pas (robots.txt). Quand les deux fichiers sont alignés et cohérents, les moteurs de recherche peuvent allouer le budget de crawl efficacement.

Le pire scénario est un robots.txt par défaut (aucune orientation) combiné à aucun sitemap (aucune priorisation). Le robot doit découvrir chaque page par les liens, n'a aucun signal sur l'importance des pages, et perd du temps sur des points de terminaison à faible valeur qui auraient pu être exclus.

Surveiller le budget de crawl

On ne peut pas voir son budget de crawl directement, mais on peut observer ses effets. Google Search Console fournit des statistiques de crawl qui montrent combien de pages Google a récupérées par jour, le temps de réponse moyen, et les types de réponses reçus.

Les journaux du serveur fournissent encore plus de détails. En analysant quels agents demandent quels chemins, on peut identifier le gaspillage de crawl — des robots qui passent du temps sur des URL sans valeur pour la recherche. Ces données informent directement quels chemins ajouter au robots.txt.

Les presets de Better Robots.txt sont conçus avec l'hygiène du budget de crawl en tête. Le preset Essential bloque les sources les plus courantes de gaspillage. Le preset Fortress va plus loin, en restreignant les robots d'archivage et les robots agressifs qui consomment des ressources sans envoyer de trafic.

Ce qu'il ne faut pas faire

L'erreur la plus courante est le surblocage. Retirer trop d'URL de la surface crawlable peut être pire que d'en retirer trop peu. Bloquer des catégories de contenu entières, des ressources CSS et JavaScript, ou des pages d'archives importantes au nom de l'optimisation du budget de crawl peut endommager l'indexation et le positionnement.

La deuxième erreur est de confondre budget de crawl et surplus d'indexation. Si une page est indexée mais ne devrait pas l'être, le bon outil est une directive noindex, pas un Disallow dans le robots.txt. Bloquer une page dans le robots.txt ne la retire pas de l'index — ça empêche les robots de voir la directive noindex qui le ferait.

Le principe est conservateur : bloquer ce qui n'a clairement aucune valeur, préserver ce qui pourrait en avoir, et vérifier avec des données avant de faire des changements agressifs.