Google-Extended vs Googlebot : comment bloquer l'entrainement IA sans perdre l'indexation
Google opère deux robots que les propriétaires de sites doivent distinguer. Googlebot indexe les pages pour Google Search. Google-Extended collecte du contenu pour entrainer les modèles IA Gemini. Ils partagent les mêmes plages d'IP, mais servent des objectifs complètement différents — et bloquer le mauvais a des conséquences très différentes.
Ce que fait Googlebot
Googlebot est le robot web principal de Google. Il récupère les pages, exécute le JavaScript, lit les données structurées, et construit l'index de recherche qui alimente Google Search, Google News et Google Discover. Quand quelqu'un trouve un site par une recherche Google, c'est parce que Googlebot a crawlé et indexé le contenu.
Bloquer Googlebot retire le site de Google Search entièrement. Il n'y a pas d'effet partiel : une règle Disallow: / pour Googlebot signifie que Google ne peut crawler aucune page, ce qui signifie qu'aucune page n'apparait dans les résultats de recherche.
Ce que fait Google-Extended
Google-Extended est un agent séparé introduit par Google spécifiquement pour la collecte de données liées à l'IA. Il collecte du contenu pour entrainer et améliorer Gemini, la famille de grands modèles de langage de Google.
La distinction critique : bloquer Google-Extended n'affecte pas l'indexation Google Search. Les pages continuent d'apparaitre dans les résultats de recherche, les positionnements ne sont pas affectés, et Googlebot continue de crawler normalement. La seule chose qui change, c'est que le contenu cesse d'être utilisé pour l'entrainement du modèle Gemini.
Cette séparation est une réponse directe à la demande des éditeurs. Avant Google-Extended, il n'y avait aucun moyen de se soustraire à l'entrainement IA sans aussi se soustraire à l'indexation.
Comment configurer chacun dans le robots.txt
Pour autoriser l'indexation et bloquer l'entrainement IA, ajouter un bloc spécifique pour Google-Extended tout en laissant Googlebot sans restriction :
User-agent: Googlebot
Allow: /
User-agent: Google-Extended
Disallow: /L'erreur la plus dangereuse est de confondre les deux agents. Un propriétaire de site qui ajoute Disallow: / sous User-agent: Googlebot en pensant bloquer l'entrainement IA retirera tout son site de Google Search.
L'approche la plus sûre est d'utiliser des règles explicites par agent. Better Robots.txt organise ça à travers son module de gouvernance IA, où Google-Extended a son propre interrupteur séparé de Googlebot.
Applebot-Extended suit le même patron
Apple a introduit la même séparation : Applebot gère l'indexation Siri et Spotlight, tandis qu'Applebot-Extended collecte des données pour l'entrainement Apple Intelligence. Bloquer Applebot-Extended n'affecte pas les résultats Siri.
Cette tendance de différenciation des agents est le changement structurel le plus significatif dans le paysage des robots IA depuis 2024. Elle donne aux propriétaires de sites la capacité de dire oui à la découverte tout en disant non à l'entrainement — une distinction que le robots.txt seul ne pouvait pas exprimer avant l'existence de ces agents dédiés.