Avec l’essor de la recherche par IA, une nouvelle catégorie de bots a vu le jour : les userbots IA. Des agents utilisateurs tels que ChatGPT-User ou Perplexity-User accèdent à un site web au moment précis où une IA rassemble des informations pour répondre à une requête spécifique d’un utilisateur.
Dans le secteur du SEO, ces accès sont de plus en plus traités comme une nouvelle monnaie d’échange. La logique semble convaincante : si un userbot IA explore mon site, mon contenu est intégré à la réponse générée. Plus d’accès de bots signifie une meilleure visibilité dans l’IA.
Cette interprétation est compréhensible, mais elle reste insuffisante. Lors de l’analyse des données des userbots IA, quatre obstacles majeurs viennent compliquer considérablement le tableau.
1. Les systèmes les plus utilisés n’ont pas recours aux userbots
Google AI Overviews et le mode IA sont de loin les systèmes de recherche par IA les plus utilisés sur le marché. Ils fonctionnent principalement sur la base de l’index de recherche existant. Lors du traitement d’une requête, aucun accès en temps réel par un userbot dédié n’a généralement lieu. L’ensemble du processus reste invisible dans les fichiers journaux du serveur.
Cela signifie que quiconque mesure ses performances en matière de recherche par IA exclusivement via les accès des userbots passe complètement à côté du canal de loin le plus important.
2. L’accès n’équivaut pas à la prise en compte
Dans le cadre du RAG (Retrieval Augmented Generation), un LLM peut récupérer de nombreuses sources en parallèle afin d’enrichir la densité d’information d’une réponse. Cependant, le fait qu’une page ait été explorée dans ce processus ne signifie pas nécessairement qu’elle sera finalement citée comme source ou prise en compte dans le résultat. Le modèle filtre et pondère à nouveau lors d’une étape finale.
Un accès de bot dans les journaux est donc, au mieux, un signal indiquant qu’une page a été considérée comme candidate. Savoir si elle a effectivement été intégrée à la réponse finale ne peut pas être déduit de ce seul élément.
3. Validation plutôt que génération
Les décisions essentielles concernant le contenu d’une réponse sont prises au sein du modèle fondamental lui-même. Dans de nombreux cas, les userbots servent uniquement à étayer ou à valider avec des faits actuels les décisions déjà prises par le modèle.
L’accès du bot est donc souvent un mécanisme de vérification en aval, et non un déclencheur principal de la réponse. La causalité fonctionne différemment de ce que suggèrent les données de journal : ce n’est pas l’accès au site web qui conduit à la réponse, mais bien la réponse planifiée qui conduit à l’accès au site web.
4. La mise en cache fausse la base de données
Pour réduire la latence et les coûts, les systèmes de recherche par IA ont recours à des mécanismes de mise en cache. Un seul accès de bot peut servir de base à des milliers de requêtes identiques d’utilisateurs sans qu’aucune nouvelle entrée de journal ne soit générée.
Cela fausse la base de données dans les deux sens : des pages avec peu d’accès de bots peuvent néanmoins être très présentes dans les réponses de l’IA. Des pages avec de nombreux accès de bots n’ont peut-être été consultées que pour une seule requête, qui a ensuite été mise en cache.
Une comparaison historique : le parallèle avec les métamoteurs de recherche
Les userbots IA rappellent les débuts des métamoteurs de recherche. Ces derniers interrogeaient en parallèle différents moteurs de recherche à la suite d’une requête utilisateur et agrégaient laborieusement les résultats en temps réel. Le principe fonctionnait, mais il était inefficace et est rapidement devenu obsolète lorsque Google a construit un index suffisamment complet et à jour pour que les informations puissent être fournies directement depuis une source centrale unique.
Conclusion
Les accès des userbots IA constituent un point de données, mais pas un indicateur fiable de la visibilité dans l’IA. Ils ne représentent qu’une infime partie du paysage réel de la recherche par IA, ne disent rien sur la prise en compte effective du contenu dans les réponses et sont systématiquement faussés par les effets de mise en cache.
Ma prédiction : la recherche par IA évoluera de manière similaire. L’accès en temps réel via userbot deviendra un cas particulier réservé aux données volatiles et urgentes — par exemple « Ce vol est-il encore disponible en classe de réservation XY en ce moment ? ». Pour la grande majorité des informations, le modèle s’appuiera directement sur ses connaissances entraînées ou sur un index exploré en amont, hautement efficace.