Pourquoi une URL bloquée par robots.txt apparaît-elle toujours sur les pages de résultats ?

Si vous utilisez le fichier robots.txt pour bloquer l’accès à un répertoire ou à une page spécifique pour les robots des moteurs de recherche, cette page ou ce répertoire ne sera pas exploré ou indexé. Dans certains cas, Google affichera dans les SERP une page qui est bloquée par le fichier robots.txt.

Vous pouvez bloquer le répertoire « répertoire-a » et la page « page-a.html » pour les robots d’exploration en ajoutant ce qui suit au fichier robots.txt du site :

User-agent: *
Disallow: /a-directory/
Disallow: /a-page.html

Pourquoi ma page apparaît-elle dans les résultats de recherche alors qu’elle est bloquée par le fichier robots.txt ?

Dans certains cas, Google affichera une page bloquée par robots.txt dans les SERPs (les pages de résultats de recherche).

Il est important de savoir que le robot d’exploration respecte le fichier robots.txt et n’a pas ajouté le contenu de ces pages bloquées à son index. Google ne dispose donc d’aucune information concernant cette page.

Quand une page bloquée apparaît-elle dans les SERP ?

Si la page bloquée comporte de nombreux liens entrants avec un texte de lien définitif, Google peut considérer le contenu de la page comme suffisamment pertinent pour afficher l’URL qui apparaît dans ces textes de lien dans les résultats de recherche. Toutefois, le contenu de cette URL reste inconnu de Google, qui n’est pas en mesure d’explorer ou d’indexer la page.

Dans les SERP, vous pouvez généralement identifier les pages dont l’exploration et l’indexation ont été bloquées par le fichier robots.txt grâce à un extrait manquant (par exemple la description).

Google fait de plus en plus attention aux signaux d’utilisateurs – un exemple

Nous utilisons le fichier robot.txt pour bloquer l’accès à notre page http://www.domain.com/grandmas-cakerecipe.html. Le robot d’exploration de Google respecte notre demande de ne pas explorer et indexer les contenus de la page. Donc, Google ne connaît pas du tout le contenu du fichier grandmas-cakerecipe.html.

Disons que cette page contient une très bonne recette et qu’elle reçoit un grand nombre de liens entrants venant d’autres pages et que beaucoup utilisent le lien texte « La meilleure recette de tarte de grand-mère ». Dans de tels cas, notre page bloquée http://www.domain.com/grandmas-cakerecipe.html peut apparaître dans les pages de résultats de recherche (SERPs) pour la requête « La meilleure recette de tarte de grand-mère » – même si nous avons bloqué l’accès au robot d’exploration grâce à robots.txt.

Comment empêcher définitivement le contenu d’apparaître dans les pages de résultats de recherche ?

Le fichierLe fichier robots.txt ne garantit pas que votre page n’apparaisse pas dans les résultats de recherche. Pour être sûr qu’une page sera définitivement exclue des résultats de recherche, vous devez utiliser l’élément méta « robots » avec la valeur NOINDEX.

Explication en vidéo par Matt Cutts / Google à ce sujet

Adresses URLs non explorées dans les résultats de recherche

23.05.2022