Le leak du code Yandex révèle des facteurs de classement

Johannes Beus

(Auteur)

Publié le : 30.01.2023

Un ancien employé de Yandex a divulgué le code source du moteur de recherche et d’autres services. Cela permet d’obtenir des informations intéressantes sur le fonctionnement interne du moteur de recherche : facteurs de classement, pondérations, etc.

Yandex est le leader du marché des moteurs de recherche en Russie et le cinquième au monde en termes de pages vues. Bien que Yandex ne soit pas Google, le fonctionnement de base des moteurs de recherche est comparable. Les observations suivantes ne s’appliquent pas nécessairement directement à Google, mais elles fournissent un aperçu intéressant.

Une liste exhaustive de 1 922 facteurs de classement différents se trouve dans le code source. Cependant, étant donné que 999 de ces facteurs de classement sont étiquetés TG_DEPRECATED, 242 TG_UNUSED, 149 TG_UNIMPLEMENTED et 115 TG_REMOVED, il ne reste que 417 facteurs de classement actifs à prendre en compte. C’est tout de même un peu plus que les quelque 200 signaux de classement connu pour Google.

Google l’a déjà confirmé, Yandex utilise également différents algorithmes et pondérations en fonction de la requête de recherche. Par exemple, une distinction est faite selon le temps – il existe des pondérations matin et soir (IND_FI_MORNING_QUERY). Bien entendu, il existe également des différences pour les divertissements pour adultes (IND_FI_XPORNO_QUERY), les requêtes commerciales (IND_FI_QUERY_COMMERCIALITY_MX) et bien d’autres encore.

Une première liste de pondérations des facteurs de classement (nav_linear.h) suggère que les plus importants pour Yandex peuvent être trouvés dans ces quatre domaines :

Liens : Comme Google, Yandex utilise un algorithme PageRank pour classer la qualité des liens. Le texte du lien est important, tout comme l’âge du lien.
Signaux des utilisateurs : Google le nie, mais le code source de Yandex montre clairement que les user signals sont un facteur de ranking. Des valeurs telles que le CTR, le temps passé sur le site, le taux de rebond et le nombre de visiteurs qui reviennent sur les SERPs affectent le classement sur Yandex.
Évaluation de la pertinence du contenu du texte : Le facteur de classement classique des moteurs de recherche est bien sûr également inclus. Yandex s’appuie principalement sur BM25, une approche bien connue de la recherche d’informations. On trouve également d’autres méthodes classiques, comme la vérification de la présence du mot-clé dans l’URL.
Confiance et qualité : Comme Google, Yandex fixe des exigences de qualité plus élevées pour les sujets sensibles tels que la santé et le contenu financier. Il existe sept facteurs de classement différents pour les seuls sujets médicaux (FI_MEDICAL*).

De nombreuses hypothèses sur les facteurs de classement de Google peuvent être trouvées dans le code source de Yandex. Il ne s’agit pas d’une confirmation que Google les utilise, mais d’une bonne indication.

Yandex évalue généralement le contenu publié sur Wikipedia.org mieux que les autres contenus. Les erreurs de serveur (codes d’état 400/500) ont également un effet négatif sur le classement. Comme le sait Google, Yandex évalue également positivement le cryptage et la vitesse HTTPS.

Dans l’ensemble, le leak du code de Yandex offre un aperçu très intéressant du fonctionnement interne d’un moteur de recherche moderne. Bien que l’on ne puisse pas supposer que tous les résultats sont utilisés chez Google, de nombreuses hypothèses formulées ces dernières années sur le fonctionnement général des grands moteurs de recherche Internet ont été confirmées.

Je m’attends à ce que l’industrie du SEO vivent quelques semaines intéressantes grâce à ces nouvelles perspectives.

Johannes Beus

(Auteur)

Publié le : 30.01.2023