Erreurs du robot d’indexation dans l’Optimizer

de_DEes_ESit_ITus

Il arrive parfois que le robot d’indexation SISTRIX ne puisse pas capturer entièrement tous le contenu d’une page. Nous voulons explorer les raisons les plus communes ainsi que leurs contextes et vous montrer les solutions à ces problèmes.

Le robot d’indexation SISTRIX

Tous les accès en relation à la SISTRIX Toolbox sont réalisés par le robot d’indexation SISTRIX. Ce robot peut être identifié par deux traits distincts : d’un côté c’est un agent utilisateur, qui est envoyé à chaque fois que la page est ouverte. Par défaut, l’agent utilisateur est :

Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

D’un autre côté, toutes les adresses IP du robot d’indexation SISTRIX indiquent le nom d’hôte du domaine « sistrix.net ». Par exemple, sur l’adresse IP 136.243.92.8, notre robot renverrait l’entrée DNS inverse 136-243-92-8.crawler.sistrix.net.

Le robot SISTRIX surveille en permanence de près la vitesse de chargement des pages visitées et ajustera la vitesse à laquelle de nouvelles pages sont demandées à cette vitesse-là. Ainsi, nous pouvons être sûrs de ne pas surcharger le serveur. Pour plus d’informations, visitez cette page crawler.sistrix.net.

Dans l’Optimizer, vous avez aussi la capacité de contrôler l’agent utilisateur et l’intensité d’exploration du robot de l’Optimizer. Vous trouverez ces paramètres dans chaque projet dans « Gestion du projet > Robot d’indexation » dans la fenêtre « Paramètres de l’exploration » et « Vitesse de l’exploration ».

robots.txt

Avant d’accéder à un site Internet, notre robot va demander un fichier dont le nom est « robots.txt » dans le répertoire racine, ainsi que chaque nom d’hôte, du domaine. Si le robot trouve ce fichier, il l’analyse et observe attentivement les règles et restrictions trouvées dans le fichier. Des règles qui ne comptent que pour « sistrix » seront acceptées ainsi que les règles générales avec l’identifiant « * ». Si vous deviez utiliser un fichier robots.txt, nous vous demandons de bien vouloir vérifier le contenu pour vous assurer que le robot SISTRIX n’a pas été restreint par accident.
Si vous préférez un plan du site dans le robots.txt, notre robot y accèdera comme base d’exploration.

Cookies

Le robot SISTRIX ne va pas enregistrer les cookies pendant qu’il vérifie une page. Veuillez vous assurer que notre robot peut accéder à toutes les parties de la page sans avoir à accepter de cookies. Vous pouvez trouver l’IP de notre robot sous « Gestion du projet » et dans « Paramètres de l’exploration ».

JavaScript

Notre robot n’utilise pas JavaScript. Veuillez vous assurer que toutes les pages sont accessibles en page HTML statique pour que notre robot puisse toutes les analyser.

Restrictions du côté des serveurs

Le robot SISTRIX peut voir l’accès refusé du côté des serveurs. Dans ce cas, notre robot recevra un message d’erreur avec le code HTTP 403 (accès refusé) quand il tentera d’accéder à la page pour la première fois. Ensuite, il ne pourra accéder à aucune page de ce serveur. Une telle restriction du côté du serveur peut être placée sur d’autres niveaux du système. Un bon point de départ serait de vérifier le fichier « .htaccess » du serveur web Apache. Si vous ne trouvez pas d’indice, vous devriez contacter le fournisseur ou l’hôte. Malheureusement, nous ne pouvons pas désactiver ces restrictions nous-mêmes.

Exemples de restrictions courantes

restrictions robots.txt

Si le robots.txt refuse l’accès au robot de l’Optimizer, vous aurez un message d’erreur « robots.txt refuse les explorations ». Veuillez vérifier s’il y a des restrictions générales (User-Agent: *) ou des restrictions spécifiques (User-Agent: Sistrix) dans votre robot.txt. Si vous avez changé votre agent utilisateur dans les paramètres d’exploration de votre projet, veuillez les vérifier également.

Seulement quelques pages ont été explorées ou aucune ne l’a été

Il y a plusieurs raisons pour lesquelles notre robot n’a pu explorer qu’un certain nombre de pages, voire même aucune page. Dans le projet de l’Optimizer, allez dans « Analyser > Mode expert ». Vous trouverez alors une longue liste de tous les documents HTML explorés du domaine. Vous pouvez trouver le code en vous déplaçant un peu à droite dans le tableau. Cela devrait vous dire pourquoi toutes les pages associées à ce domaine n’ont pas été explorées.

  • 200: Si le code est 200 mais qu’aucune autre page n’a été explorée, la raison est souvent l’une des suivantes :

    • Liens internes manquants : Notre robot suit tous les liens internes qui ne sont pas bloqués à l’exploration. Veuillez vérifier s’il y a des liens internes sur la page d’accueil et si les pages cibles peuvent bloquer le robot en utilisant soit le robot.txt soit les paramètres d’exploration.
    • Paramètres Geo-IP : Pour présenter le site Internet dans la langue correspondante pour chaque utilisateur, l’IP est analysée pour trouver le pays d’origine. Tous nos robots sont basés en Allemagne. Il est donc nécessaire de mettre l’IP de notre robot sur liste blanche si vous voulez accéder au contenu dans toutes les langues disponibles derrière la barrière Geo-IP.
  • 301 / 302: Si le code 301 ou 302 apparaît, veuillez vérifier si le lien mène à un domaine différent – par exemple sistrix.at, qui mène à sistrix.de par une redirection 301. Le robot de l’Optimizer reste toujours sur le domaine (ou sur l’hôte ou le répertoire) entré dans les paramètres du projet. Si je créé un projet pour sistrix.at, notre robot va reconnaître la redirection 301 et le montrera dans le mode expert, mais ne suivra pas la redirection vers sistrix.de, puisque c’est un domaine différent.
  • 403: Si le code 403 apparaît de suite, ou si après quelques pages explorables (code 200) seul le code 403 apparaît, vous devriez vérifier pourquoi le serveur empêche notre robot de demander les pages. Veuillez regarder l’entrée pour « Restrictions du côté des serveurs ».
  • 5xx: Si le code 500 ou 5xx apparaît dans le champ de code, cela veut dire que le serveur n’a pas pu s’occuper de notre demande à cause d’une erreur de serveur. Dans ce cas-là, vous devriez patienter quelques minutes puis utiliser le bouton « Redémarrer le robot » dans le menu « Gestion du projet ». Si le code 5xx continue d’apparaître, vérifiez pourquoi le serveur est en surcharge et incapable d’ouvrir les pages.

Pourquoi Google trouve d’autres/plus de contenu que SISTRIX ?

Notre robot commence toujours par les pages de démarrage du projet, bien que davantage de pages de démarrage puissent être ajoutées dans les paramètres du robot. À partir de là, nous suivrons tous les liens internes qui ne sont pas bloqués. Sur ces pages, nous suivrons tous les liens internes jusqu’à ce que nous trouvions tous ceux que nous n’avons pas encore demandés.

Ce qui peut arriver, par exemple, c’est que les pages d’accueil AdWords qui ne sont pas liées en interne n’apparaissent pas dans les résultats. En général, c’est fait pour qu’elles n’influent pas sur le suivi d’AdWords. Cela veut dire que ces pages sont invisibles pour notre robot. Par contre, Google voit ces pages.

Si vous entrez un plan du site de votre projet avec Google, il sera peut-être avantageux de le lier à l’intérieur de robots.txt. De cette façon, notre robot peut le reconnaître et l’utiliser comme base d’exploration.

Une autre raison pour laquelle il peut y avoir une différence de valeurs entre les pages indexées par la recherche Google et le nombre de pages explorées dans votre Optimizer est que le contenu dans l’index de recherche Google peut contenir des doubles.