Aller au contenu principalSkip to content

Search vs ai-input vs ai-train : ce que ces signaux veulent vraiment dire

L’une des améliorations les plus utiles de la gouvernance d’accès machine n’est pas un nouveau nom de bot.

C’est un meilleur vocabulaire.

La différence entre search, ai-input, et ai-train compte parce que ces 3 finalités ne sont pas la même chose :

  • l’une relève de la découvrabilité et des résultats de recherche ;
  • l’une relève de l’entrée de contenu dans un modèle au moment de la requête ;
  • l’une relève de l’entraînement ou du fine-tuning.

Si un site écrase tout cela dans une posture vague du type « IA autorisée » ou « IA refusée », il perd l’essentiel de la précision que la gouvernance moderne rend maintenant possible.

La version courte

Voici l’interprétation pratique la plus simple.

SignalCe qu’il signifieQuestion business principale
searchIndexation Search et résultats avec liens et extraitsVeut-on que ce contenu soit découvrable dans des expériences de recherche qui peuvent citer et envoyer du trafic ?
ai-inputInjection du contenu dans des modèles au moment de la requêteVeut-on que ce contenu soit utilisé pour de la récupération, du grounding, ou de l’assemblage de réponse de type RAG ?
ai-trainEntraînement ou fine-tuning de modèles IAAutorise-t-on l’usage de ce contenu pour améliorer de futurs modèles ?

Cette distinction est bien plus utile qu’une étiquette plate du type « bot IA ».

La finalité search est la plus simple à comprendre.

Cloudflare la décrit comme la construction d’un index de recherche et la fourniture de résultats avec liens et extraits.

Autrement dit, cette finalité concerne :

  • la découvrabilité ;
  • l’indexation ;
  • les résultats liés ;
  • le comportement d’extrait et de citation.

La vraie question business est généralement :

veut-on que ce contenu soit disponible dans des expériences de recherche susceptibles de renvoyer des utilisateurs vers le site ?

Cela distingue search à la fois de l’entraînement et de la récupération au moment de la réponse.

search, c’est d’abord la capacité à être trouvé.

Ce que signifie réellement ai-input

ai-input est le signal que beaucoup d’équipes comprennent mal en premier.

Cloudflare le décrit comme l’injection de contenu dans des modèles IA au moment de la requête, notamment pour des usages comme le retrieval-augmented generation ou le grounding.

Cela veut dire que le contenu n’est pas nécessairement utilisé pour entraîner le modèle.

Il peut au contraire être injecté dans le contexte de travail du modèle lorsqu’un utilisateur pose une question.

C’est une question business et de gouvernance très différente.

Elle demande :

  • veut-on que notre contenu serve à construire des réponses en temps réel ou quasi temps réel ;
  • autorise-t-on le grounding et la récupération ;
  • souhaite-t-on permettre cet usage au moment de la réponse même si l’on refuse l’entraînement à long terme ?

C’est exactement pour cela que Pourquoi robots.txt ne suffit plus pour les agents IA déclenchés par l’utilisateur et ai.txt vs robots.txt vs llms.txt doivent appartenir au même parcours de lecture.

Ce que signifie réellement ai-train

ai-train est le signal d’usage aval le plus clair.

Cloudflare le définit comme l’entraînement ou le fine-tuning de modèles IA.

C’est la finalité qui correspond le plus directement à la préoccupation familière des éditeurs :

« Veut-on que notre contenu serve à améliorer de futurs modèles ? »

Ce n’est pas la même chose que la visibilité Search. Ce n’est pas la même chose que la récupération au moment de la requête. C’est une question de développement futur des modèles.

C’est exactement pour cela qu’un site peut rationnellement choisir :

  • search=yes
  • ai-input=yes
  • ai-train=no

ou toute autre combinaison cohérente avec sa posture business.

Pourquoi cette distinction compte sur le plan opérationnel

La valeur de cette distinction n’est pas théorique.

L’endpoint /crawl de Cloudflare respecte explicitement les Content Signals présents dans le robots.txt du site ciblé.

Cloudflare documente les 3 finalités suivantes :

  • search
  • ai-input
  • ai-train

Et Cloudflare explique aussi quelque chose de très révélateur :

par défaut, /crawl déclare les 3 finalités. Si un site place l’une d’elles sur no, la requête de crawl est rejetée à moins que l’opérateur ne réduise les finalités déclarées et retire celle qui est interdite.

Cela veut dire que la distinction produit de vrais effets.

Ce n’est pas seulement une nuance sémantique. C’est une déclaration lisible par machine sur le type d’usage prévu après l’accès.

Les 3 vraies questions business à poser

Une discussion de politique devient beaucoup plus claire quand on pose 3 questions séparées.

1. Veut-on de la découvrabilité ?

C’est la question search.

2. Veut-on de la récupération ou du grounding au moment de la réponse ?

C’est la question ai-input.

3. Veut-on autoriser l’amélioration de futurs modèles ?

C’est la question ai-train.

Beaucoup de sites ne répondent pas la même chose aux 3 questions.

Et ils ne devraient pas se sentir obligés de le faire.

Trois erreurs fréquentes

1. Traiter ai-input comme un autre mot pour l’entraînement

Ce n’est pas le cas.

ai-input relève d’un usage au moment de la requête, pas nécessairement d’une amélioration durable du modèle.

2. Traiter search comme s’il couvrait tous les usages liés aux réponses

Ce n’est pas le cas non plus.

Un site peut vouloir apparaitre dans des résultats Search liés tout en refusant certaines formes d’ingestion au moment de la réponse ou d’entraînement.

3. Lire ces signaux comme de l’enforcement technique dur

Ce n’est pas un mécanisme universel d’enforcement.

Cloudflare décrit explicitement les Content Signals comme des déclarations fondées sur la confiance concernant l’usage prévu après l’accès.

Cela reste précieux. Mais ce n’est pas un pare-feu.

Où Better Robots.txt se place

C’est l’un des endroits où Better Robots.txt rend le paysage moderne beaucoup plus facile à raisonner.

Il aide les propriétaires de sites à publier une posture plus explicite au lieu d’écraser tout le sujet dans un modèle grossier d’autorisation ou de refus.

Cela rend plus facile la publication d’une politique du type :

  • rester visible en recherche ;
  • autoriser certains usages au moment de la réponse ;
  • refuser l’entraînement ;
  • garder la politique cohérente entre plusieurs fichiers.

C’est un gain de gouvernance réel, même si aucun signal unique ne garantit une obéissance universelle.

Le bon modèle mental

Le modèle mental le plus sûr est celui-ci :

  • search = découvrabilité
  • ai-input = usage du contenu par le modèle au moment de la réponse
  • ai-train = amélioration de futurs modèles

Dès que ces 3 finalités sont séparées clairement, la politique cesse d’être vague et devient opérationnelle.

À lire aussi