Des infos SEO fraiches dans votre boite mail ?

Pourquoi est-ce qu’une adresse URL bloquée par robots.txt est affichée dans les résultats de recherche?

Si on utilise le fichier robots.txt pour bloquer l’accès à un certain répertoire ou une certaine page pour les robots d’exploration, cette page/ce répertoire ne sera ni exploré(e) ni indexé(e).

On peut bloquer le répertoire « répertoire-a » et la page « page-a.html » pour les robots d’exploration en faisant les ajouts suivants sur les sites robots.txt :

User-agent: *
Disallow: /a-directory/
Disallow: /a-page.html

Pourquoi est-ce que je trouve ma page dans les résultats de recherche même si elle est bloquée par le fichier robots.txt?

Dans certains cas, Google affichera une page bloquée par robots.txt dans les SERPs (les pages de résultats de recherche).

Dans ces exemples, il est important de savoir que le robot d’exploration respecte bien le fichier robots.txt et qu’il n’a pas ajouté le contenu des pages bloquées à son index. Google n’a donc aucun information disponible sur cette page.

À quel moment une page bloquée apparaît-elle dans les SERPs?

Si la page bloquée a un grand nombre de liens entrants avec des liens texte définitifs, Google verra peut-être le contenu de le page comme étant assez pertinent et afficher l’adresse URL qui apparaît dans les liens texte dans les résultats de recherche. Cependant, le contenu de cette adresse URL reste inconnu pour Google puisqu’ils ne peuvent ni l’explorer, ni l’indexer.

On peut généralement reconnaître les pages qui se trouvent dans les SERPs même si elles sont bloquées par les robots.txt grâce à des extraits manquants (par exemple les descriptions).

Google fait de plus en plus attention aux signaux d’utilisateurs – un exemple

Nous utilisons le fichier robot.txt pour bloquer l’accès à notre page http://www.domain.com/grandmas-cakerecipe.html. Le robot d’exploration de Google respecte notre demande de ne pas explorer et indexer les contenus de la page. Donc, Google ne connaît pas du tout le contenu du fichier grandmas-cakerecipe.html.

Disons que cette page contient une très bonne recette et qu’elle reçoit un grand nombre de liens entrants venant d’autres pages et que beaucoup utilisent le lien texte « La meilleure recette de tarte de grand-mère ». Dans de tels cas, notre page bloquée http://www.domain.com/grandmas-cakerecipe.html peut apparaître dans les pages de résultats de recherche (SERPs) pour la requête « La meilleure recette de tarte de grand-mère » – même si nous avons bloqué l’accès au robot d’exploration grâce à robots.txt.

Comment s’assurer totalement que le contenu n’apparaîtra pas dans les pages de résultats de recherche

Le fichier robots.txt ne garantissent pas que la page ne soit pas dans les résulats de recherche.
Pour être sûr qu’une page ne sera pas dans les résultats de recherche, on devrait utiliser l’élément meta « robots » avec la valeur NOINDEX.

Explication en vidéo par Matt Cutts / Google à ce sujet

Adresses URLs non explorées dans les résultats de recherche

Articles similaires