Exploration et indexation des sites Web étendus

Dès que les sites Web dépassent la taille d’une site typique, un certain nombre de nouveaux défis se présentent. L’un d’eux est que le contenu existant doit être indexé par Google, et être aussi complet et à jour que possible. Bien que cela puisse sembler facile, les très grands sites Web sont susceptibles de commettre de graves erreurs sans s’en douter, car leur contenu est dispersé dans de nombreuses bases de données et provient d’un certain nombre de fournisseurs différents.

Même pour Google, il y a des limites aux ressources qui peuvent être fournies pour capturer et stocker le contenu d’un site Web. Pour cette raison, Google utilise des limites individuelles par domaine : combien d’URLs sont explorées par jour, combien de ces pages sont autorisées dans l’index Google ? Les sites Web étendus peuvent rapidement se heurter à ces limitations. C’est pour cela qu’il est important d’utiliser les ressources disponibles de la manière la plus intelligente et la plus productive possible. Dans cet article, nous souhaitons vous fournir quelques informations générales à ce propos, vous présenter des processus spécifiques par lesquels vous pouvez contrôler l’exploration et l’indexation et que vous parler de leurs avantages et inconvénients.

Budget d’exploration & budget d’indexation

Même si ces deux termes sont très proches contextuellement, il y a tout de même quelques différences importantes. Afin de mieux les comprendre, examinons tout d’abord la structure schématique (et simplifiée) d’un moteur de recherche :

Afin d’avoir la moindre chance d’être pris en compte pour un terme de recherche par l’algorithme de classement du moteur de recherche, un élément de contenu sur un domaine doit d’abord être découvert et capturé par le crawler et doit ensuite être ajouté à l’index.

Google a établi un certain nombre d’hypothèses sur le comportement du Googlebot pour garantir d’atteindr deux objectifs : découvrir rapidement et de manière fiable de nouveaux contenus, identifier et collecter le contenu profondément caché dans une page.

Les efforts déployés par Google pour atteindre ces objectifs dépendent du budget d’exploration du domaine. Les tentatives visant à ce que Google traite tous les domaines de la même manière ont été repoussées et Google attribuera à chaque domaine son propre budget d’exploration. Ce budget d’exploration détermine la fréquence à laquelle Googlebot explore les premiers niveaux d’un domaine et la profondeur d’un « Deep-Crawl » régulier.

Nous voyons quelque chose similaire concernant le budget d’indexation : ce budget décide du nombre maximum d’URLs qui peuvent être ajoutées à l’index de Google. Il est important de garder à l’esprit que seules les URLs qui sont explorées régulièrement resteront dans l’index.

Vos ennemis : les développeurs Web, JavaScript et le chaos général

Tout cela pourrait donc être facile. En théorie, chaque élément de contenu que vous avez devrait avoir une URL unique, logique et facile à comprendre – qui reste exactement la même pour les prochaines décennies.

Malheureusement, cette utopie ne résiste pas au monde réel : les développeurs Web décident de créer la troisième version imprimée d’une page, le Googlebot apprend un peu plus de JavaScript et invente soudainement de nouvelles URLs et le site Web obtient sa troisième relance CMS en deux ans, ce qui laisse le concept d’URL d’origine en lambeaux. Tout cela se terminera de la même manière : Google va explorer des URLs inutiles et gaspiller le budget d’exploration du domaine. Ce qui manquera alors à d’autres endroits, notamment lorsqu’il s’agit de projets d’envergure. Cela pourrait être la raison pour laquelle votre domaine ne prend pas le maximum d’espace qu’il pourrait avoir dans l’index Google et ce qui entraînera alors le domaine à rester en dessous de son potentiel longtail maximal.

Peur de Panda, du contenu en double et hygiène de l’index

Il devrait maintenant être clair qu’il est essentiel que vous contrôliez spécifiquement l’exploration et l’indexation des domaines étendus. Il y a aussi quelques avantages supplémentaires qui accompagnent votre hygiène d’index. Alors que Google essaie de rassurer tout le monde depuis quelques années sur le fait que le contenu dupliqué ne pose pas de problème, la réalité tend à montrer le contraire. Mettre de l’ordre et se dôter d’un système d’exploration vous permettra de remarquer très tôt les problèmes de contenu en double et de prendre les contre-mesures nécessaires. Parallèlement, avoir quelques éléments de contenu de haute qualité indexés peut également vous aider contre la grande menace de Google : Google Panda.

Choisissez vos armes : robots.txt, noindex, canonical

Voilà pour la théorie, passons maintenant à la pratique : comment garder mon domaine propre ? Heureusement, vous disposez maintenant d’un arsenal d’outils très vaste et étendu pour atteindre cet objectif. Découvrez rapidement ci-dessous les plus importants et parlons de leurs avantages et inconvénients.

Fichier robots.txt

Les instructions contenues dans le fichier robots.txt sont l’instrument le plus ancien pour empêcher les moteurs de recherche de visiter des parties spécifiques d’un site. Alors que la syntaxe était assez simple au début, il y a eu de nombreuses extensions, surtout grâce à Google, qui permettent de couvrir presque toutes les bases. L’avantage du fichier robots.txt : Googlebot ne visitera pas du tout le contenu interdit, ce qui signifie qu’aucun budget de crawl ne sera utilisé. L’inconvénient : si Google est convaincu que le contenu est néanmoins important (parce qu’il existe de nombreux liens externes vers cette URL, par exemple), l‘URL apparaîtra quand même dans les SERPs (Page de résultats du moteur de recherche) – juste sans titre ni extrait.

Instruction noindex

L’instruction noindex réfère toujours à une URL spécifique. Il peut faire partie du code source HTML d’une page, en tant que métabalise, ou être spécifié dans l’en-tête HTTP. Le dernier est particulièrement intéressant pour les autres formats de fichiers, tels que les documents PDF et Word. Pour observer l’instruction noindex, le Googlebot devra d’abord traiter l’URL. Cela utilise le budget d’exploration, mais pas le budget d’indexation. Noindex est la seule méthode fiable pour s’assurer qu’une URL n’apparaît pas dans les SERPs, en aucun cas. Garde bien à l’esprit que Google devra lire les instructions pour le traiter, ce qui signifie que tu ne dois pas bloquer l’URL via le fichier robots.txt.

Information canonique

Tout d’abord : il existe très peu d’application légitime pour l’utilisation de l’information canonique. Si un développeur web suggère l’utilisation d’un canonical, c’est souvent parce que le problème réel n’est pas censé être résolu et que les répercussions devraient être atténuées à travers la balise canonique. La balise canonique n’est pas une instruction contraignante pour Google, contrairement aux instructions robots.txt et noindex, mais simplement un avis de l’URL qui contient le contenu réel. Google va souvent suivre cet avis, mais, comme si souvent, pas toujours. Les pages avec la balise canonique utilisent le budget d’exploration pour que Google trouve la balise et utilisera probablement également le budget d’indexation afin que Google puisse comparer le contenu de la page avec d’autres éléments de l’index. En conclusion : laisse la balise canonique tranquille chaque fois que possible.

La surveillance est indispensable

Pour l’exploration de sites grands et dynamiques, il n’y a qu’une seule constante : toutes les erreurs qui peuvent se produire d’une manière ou d’une autre vont certainement se produire. C’est pourquoi il est impératif de surveiller régulièrement les paramètres les plus importants. À présent, Google t’aidera déjà un peu grâce à leur Search Console : le nombre de pages explorées et indexées devrait être un indicateur obligatoire. Avoir un petit faible pour la lecture de fichiers journaux de serveur et être habile à utiliser des outils shell peut également être utile. À la fin, je voudrais noter que notre Toolbox peut également être utile pour certaines tâches de surveillance.

Modifié le : 26.10.2022