Pourquoi est-ce que j’obtiens des valeurs différentes pour des pages indexées dans la recherche Google, la GSC et SISTRIX ?

Il arrive parfois que les chiffres qu’on obtient sur une recherche Google site:, la Google Search Console (GSC) et la SISTRIX Toolbox ne correspondent pas.

On ne peut pas comparer directement les chiffres qu’on obtient sur une recherche site: de Google et sur la Google Search Console, puisque ces derniers sont calculés séparément par Google. De ce fait, on obtiendra des résultats différents qui seront publiés à différent moments.

Comparer les pages indexées : recherche Google site: et les données SISTRIX

Recherche Google site: pour le domaine zalando.de le 28 mars 2016
Recherche Google site: pour le domaine zalando.de le 28 mars 2016
Données SISTRIX pour le domaine zalando.de. Dernières données du 28 mars 2016
Données SISTRIX pour le domaine zalando.de. Dernières données du 28 mars 2016

Lorsqu’on évalue deux séries de données, il faudrait toujours prendre en compte la date des données. Dans l’exemple ci-dessus, les données de la recherche Google site: est légèrement plus récente.

Le nombre de pages indexées dans la SISTRIX Toolbox est une moyenne

Selon Google, le nombre de pages indexées est une estimation dès qu’on atteint les 1 000 pages (notez l’utilisation du mot « environ » avant les résultats). Pour éliminer les valeurs aberrantes, nous collectons les données SISTRIX plusieurs fois par semaine et nous calculons la valeur moyenne.

Pour ce faire, nous lançons des recherches site: sur Google, ce qui fait que nos valeurs viennent directement de Google, et nous calculons seulement une moyenne des données de la semaine. Si nous montrons que les pages indexées sont montées (ou descendues), alors ce sont les chiffres que nous avons eus sur Google au moment de notre recherche site:. Nous n’ajoutons de nouveaux points de données à l’historique que lorsque nous remarquons un changement dans la moyenne.

Les valeurs qui subissent de grands changements devraient être examinées

Si vos pages indexées changent de manière évidente, vous devriez regarder quelle en est la cause. Dans nombre de cas, le contenu en double ou le contenu que Google considère comme moins important en est la cause. Google va en effet d’abord indexer ces pages (le nombre de pages indexées augmente) et avant de filtrer les doublons et les pages moins importantes (le nombre de pages indexées recule). Cela s’applique aussi aux versions print des pages, aux identifiants de sessions, aux liens affiliés et autres.

Exemple en utilisant red-simon.com

Pour vous donner un exemple, regardons la recherche site: pour le domaine red-simon.com en 2013. Vers la page 10 des résultats dans notre exemple, nous remarquons la raison qui explique l’augmentation bien évidente du nombre de pages indexées :

Google site:-query for red-simon.com in 2013
Recherche Google site: pour red-simon.com en 2013

Nous pouvons voir qu’il y a de nombreuses adresses URL dynamiques (avec de nombreux paramètres) qui peuvent être trouvées dans les résultats de recherche (par exemple red-simon.com/data/cmsv2.asp?mid=41&sid=1&pid=533).

On peut probablement accéder à ces morceaux de contenu par plusieurs adresses URL différentes et ils sont donc en double. Dans une certaine mesure, ces pages étaient aussi des redirections qui utilisaient des redirections 302, que Google ne comprend pas. Utilisez donc toujours la redirection 301 pour vos redirections.

Il serait bénéfique pour le site d’avoir des adresses URL dynamiques supprimées et remplacées par des adresses URL statiques. L’outil mod-rewrite est une bonne solution pour cette exemple.

05.06.2023