Get SEO news directly in your inbox?

Exploration et indexation des sites Web étendus

Dès que les sites Web dépassent la taille d’une page privée typique, un certain nombre de nouveaux défis se posent. L’un d’eux est que le contenu existant appartient à l’index Google, aussi complet et à jour que possible. Ce n’est pas si simple, les sites Web très larges sont susceptibles de faire des fausses erreurs, car leur contenu est dispersé à travers de nombreuses bases de données et provient d’un certain nombre de fournisseurs différents.

Même pour Google, il y a des limites aux ressources qui peuvent fournir pour capturer et stocker le contenu du site Web. À cause de cela, Google utilise des limites individuelles par domaine : combien d’URLs sont explorées par jour, combien de ces pages sont permises dans l’index Google ? De nombreux sites Web peuvent rapidement rencontrer des limites. C’est la raison pour laquelle, il est important d’utiliser les ressources disponibles de la manière la plus intelligente et la plus efficacement possible. Dans cet article, je veux rapidement te donner quelques informations de base au sujet et introduire des processus spécifiques par lesquels tu peux contrôler l’exploration et l’indexation, ainsi que te présenter leurs avantages et leurs inconvénients.


Budget d’exploration & budget d’indexation

Même si ces deux termes sont très proches les uns des autres contextuellement, il y a encore quelques différences importantes. Afin de mieux les comprendre, nous examinons d’abord la structure schématique (et simplifiée) d’un moteur de recherche :

Schematic (and simplified) structure of an internet search-engine

Pour avoir une chance d’être considéré pour une phrase de recherche par l’algorithme de classement du moteur de recherche, un élément du contenu d’un domaine a d’abord besoin d’être découvert et capturé par le robot d’exploration et doit ensuite être ajouté à l’index.

Google a établi un certain nombre d’hypothèses sur le comportement du Googlebot qui garantit qu’ils atteignent deux objectifs avec leur Googlebot : découvrir de nouveaux contenus rapidement et sérieusement identifier et recueillir le contenu qui est caché profondément dans une page. Combien d’effort Google met dans ces objectifs dépend du budget d’exploration du domaine. Il y a des tentatives que Google traite tous les domaines de la même façon. Ils étaient supprimés et Google attribuera à chaque domaine son propre budget d’exploration. Ce budget d’exploration détermine la fréquence à laquelle le Googlebot explore les premiers niveaux d’un domaine et la profondeur d’une « exploration profonde » régulière.

Nous voyons quelque chose similaire concernant le budget d’indexation : ce budget décide du nombre maximum d’URLs qui peuvent être ajoutées à l’index de Google. Il est important de garder à l’esprit que seules les URLs qui sont analysées régulièrement resteront dans l’index.

Tes ennemis : développeurs web, JavaScript et chaos général

Tout cela pourrait donc être facile. En théorie, chaque élément du contenu que tu as doit avoir une URL unique, logique et facile à comprendre – qui reste exactement la même pour les prochaines décennies.

Malheureusement, cette utopie ne tient pas le monde réel : les développeurs web décident de créer la troisième version imprimée d’une page, le Googlebot apprend un peu plus de JavaScript et invente soudainement de nouvelles URLs et le site Web obtient sa troisième relance CMS en deux ans, ce qui laisse le concept d’URL original en lambeaux. Tout cela se terminera de la même manière : Google va explorer des URLs inutiles et gaspiller le budget d’exploration du domaine. Ce qui sera alors manquant dans d’autres lieux, en particulier lorsque les projets complets. Cela pourrait être la raison pour laquelle ton domaine ne prend pas le maximum d’espace qu’il pourra avoir dans l’index de Google ce qui fera alors que le domaine reste au-dessous de leur capacité maximale de longue traîne.

Peur de Panda et de contenu en double : hygiène d’index

Il devrait maintenant être clair qu’il est essentiel pour toi de contrôler spécifiquement l’exploration et l’indexation des domaines étendus. Il y a aussi quelques avantages supplémentaires qui accompagnent ton hygiène d’index. Alors que Google a essayé de rassurer tout le monde pour les dernières années que le contenu en double ne pose pas de problème, la réalité gentiment n’est pas d’accord. Ayant un ordre et un système à l’exploration te permettra de remarquer les problèmes de contenu en double très vite et de prendre les contre-mesures nécessaires. Avoir quelques éléments de contenu de haute qualité peut également t’aider contre une de terreurs de Google : Google Panda.

Choisis vos armes : robots.txt, noindex, canonical

Telle était la théorie, maintenant nous passons à la pratique : comment puis-je garder mon domaine propre ? Heureusement, tu as à disposition un arsenal d’outils très vaste pour atteindre cet objectif. Je veux te montrer rapidement les plus importants et parler de leurs avantages et inconvénients.

Fichier robots.txt

Les instructions dans le fichier robots.txt sont l’instrument le plus ancien pour empêcher les moteurs de recherche de visiter des parties spécifiques d’un site. Alors que la syntaxe était assez simple au début, il y a eu de nombreuses extensions, surtout grâce à Google, qui te permet de couvrir presque toutes les bases. L’avantage du fichier robots.txt : Googlebot ne visitera pas du tout le contenu interdit, ce qui signifie qu’aucun budget d’exploration sera utilisé. L’inconvénient : si Google est convaincu que le contenu est néanmoins important (car il existe de nombreux liens externes vers cette URL, par exemple), l‘URL quand même apparaîtra dans les SERPs (Page de résultats du moteur de recherche) – seulement sans titre et extrait.

Instruction noindex

L’instruction noindex réfère toujours à une URL spécifique. Il peut faire partie du code source HTML d’une page, en tant que métabalise, ou être spécifié dans l’en-tête HTTP. Le dernier est particulièrement intéressant pour les autres formats de fichiers, tels que les documents PDF et Word. Pour observer l’instruction noindex, le Googlebot devra d’abord traiter l’URL. Cela utilise le budget d’exploration, mais pas le budget d’indexation. Noindex est la seule méthode fiable pour s’assurer qu’une URL n’apparaît pas dans les SERPs, en aucun cas. Garde bien à l’esprit que Google devra lire les instructions pour le traiter, ce qui signifie que tu ne dois pas bloquer l’URL via le fichier robots.txt.

Information canonique

Tout d’abord : il existe très peu d’application légitime pour l’utilisation de l’information canonique. Si un développeur web suggère l’utilisation d’un canonical, c’est souvent parce que le problème réel n’est pas censé être résolu et que les répercussions devraient être atténuées à travers la balise canonique. La balise canonique n’est pas une instruction contraignante pour Google, contrairement aux instructions robots.txt et noindex, mais simplement un avis de l’URL qui contient le contenu réel. Google va souvent suivre cet avis, mais, comme si souvent, pas toujours. Les pages avec la balise canonique utilisent le budget d’exploration pour que Google trouve la balise et utilisera probablement également le budget d’indexation afin que Google puisse comparer le contenu de la page avec d’autres éléments de l’index. En conclusion : laisse la balise canonique tranquille chaque fois que possible.

La surveillance est indispensable

Pour l’exploration de sites grands et dynamiques, il n’y a qu’une seule constante : toutes les erreurs qui peuvent se produire d’une manière ou d’une autre vont certainement se produire. C’est pourquoi il est impératif de surveiller régulièrement les paramètres les plus importants. À présent, Google t’aidera déjà un peu grâce à leur Search Console : le nombre de pages explorées et indexées devrait être un indicateur obligatoire. Avoir un petit faible pour la lecture de fichiers journaux de serveur et être habile à utiliser des outils shell peut également être utile. À la fin, je voudrais noter que notre Toolbox peut également être utile pour certaines tâches de surveillance.

Articles similaires