Les fichiers PDF de mes pages HTML peuvent-ils provoquer un problème de contenu en double ?

D’un point de vue technique, ce serait un cas de contenu en double interne si le même contenu était accessible via un fichier HTML mais aussi via un document PDF dans le site web. Ce serait un contenu en double externe si, par exemple, une version PDF téléchargeable du manuel d’utilisation de chaque produit est proposé dans une boutique en ligne, alors que cette même information est aussi disponible sur le site web du fabricant du produit.

Google déclare que, dans le cas d’un contenu en double interne, ils préfèrent généralement classer la version HTML. Si ce scénario ne se produit pas trop souvent sur ce site web, on n’a pas à s’en inquiéter.

Vous n’avez généralement pas à vous inquiéter du contenu en double dans une situation comme celle-ci, même si vous décidez de refléter le contenu de vos PDF sur vos pages HTML. Si nous identifions les URL comme du contenu en double, nous n’en montrerons simplement qu’une aux utilisateurs durant leur recherche ; votre site web ne sera généralement pas désavantagé en faisant cela.– John Mueller, Analyste des tendances webmaster, Google Suisse

Si Google affichait un avertissement de contenu en double dans la Google Search Console (GSC) dans le menu « améliorations-HTML », par exemple, c’est possible de bloquer le document PDF via le fichier robots.txt du site web et ainsi empêcher le Robot Google d’indexer le PDF. C’est aussi possible d’exclure le fichier PDF de l’indexation en utilisant l’en-tête HTTP x-robots-tag. Pour plus d’informations, n’hésite pas à lire :
https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=fr

Garde à l’esprit : Si on bloque une URL dans le robots.txt, elle peut tout de même apparaître dans les résultats de recherche.

Dans le cas de contenu en double externe dans l’exemple du dessus, il est recommandé d’utiliser un rel= »canonical » dans l’en-tête HTTP du fichier PDF, avec le contenu original comme source. On peut trouver des informations supplémentaires sur : http://googlewebmastercentral.blogspot.de/2011/06/supporting-relcanonical-http-headers.html

Les fichiers PDF doivent-ils vraiment être parcourus et indexés?

Si on utilise des fichiers PDF sur son site web, il faut toujours se demander si on souhaite se positionner principalement grâce à eux. Si ce n’est pas le cas, il faudra exclure ces fichiers de l’indexation du Google-Bot, pour réduire le coût de parcours et d’indexation de son site web.

Publié le : 21.12.2016