LinkRating

Pourquoi tous les liens ne sont-ils pas utilisés à partir du fichier téléchargé ?

Nous utilisons les fichiers de liens téléchargés depuis différentes sources pour développer la base de données de notre robot d’indexation de liens. Ainsi, nous utilisons seulement les URLs sources qui ne figuraient pas dans les autres sources de données. De plus, nous utilisons un maximum de 100 URLs par hôte […]

Pourquoi faut-il plus de temps pour vérifier le lien final ?

Dans le cas de projets multiples, le crawler a besoin de beaucoup plus de temps pour les derniers liens que pour les liens précédents. Ceci est dû au fait qu’à la fin du processus de crawling, nous vérifions à nouveau tous les liens qui n’ont pas pu être trouvés auparavant. […]