jeudi 26 Sep .19

Qu’est-ce que le crawl budget ?

Crawl budget

Si vous souhaitez que les pages de votre site soient indexées rapidement, vous devez comprendre la signification du crawl budget. Cela concerne tous les sites, grands et petits, vitrine ou e-commerce. Cependant, certaines typologies de sites web sont les plus concernées :  les « grands » sites qui comptent des milliers de pages, les sites contenant quelques erreurs techniques ou les sites avec des fonctionnalités uniques générant des URL. Le concept du crawl budget était, auparavant, un jeu de devinettes entre les spécialistes en référencement. Chacun en avait d’ailleurs sa propre définition ! Cependant, grâce à Google, nous sommes désormais bien mieux informés sur ce qu’est le crawl budget. C’est ce que nous allons voir dans cet article.

Qu’est-ce que le crawling en SEO ?

Google envoie ses robots appelés Googlebot explorer vos pages Web et indexer les mots et le contenu qu’elles contiennent. Une fois l’exploration terminée, ces résultats sont placés dans l’index de Google. Il est donc important que Google trouve facilement toutes les pages de votre site. Par conséquent, pour qu’un Googlebot trouve facilement toutes les URL, un sitemap est indispensable.

Si votre site contient quelques centaines d’URL, le moteur de recherche les explorera facilement. Toutefois, si votre site Web contient des milliers de pages et que de nombreuses nouvelles URL sont générées automatiquement chaque jour, il se peut que Google n’explore pas toutes ces pages. Par conséquent, il devient important de hiérarchiser les éléments à explorer, le moment et le volume à explorer.

Qu’est-ce que le crawl budget ?

Comme nous l’avons vu précédemment, Googlebot est le nom donné au robot qui explore votre site à la recherche de pages à ajouter à l’index Google. Vous pouvez le voir comme un internaute numérique. Comme il existe des milliards et des milliards de pages sur le Web, il serait peu pratique pour Googlebot de les explorer chaque seconde de chaque jour. Cela consomme beaucoup de bande passante, ce qui ralentit les performances des sites Web. Google alloue donc un budget d’analyse à chaque site Web. Ce budget détermine la fréquence à laquelle Googlebot explore le site à la recherche de pages à indexer. Google définit la mission du crawl budget comme suit : « Définir par ordre de priorité les éléments à analyser, le moment et les ressources que le serveur hébergeant le site Web peut allouer à l’analyse.. »

Nous pouvons donc définir le crawl budget comme «le nombre de pages Web ou d’URL que Googlebot peut ou souhaite analyser à partir de votre site Web».

Etablir une limite pour le crawl

Limiter la vitesse du crawl est possible afin que Google n’explore pas trop de pages trop rapidement sur votre site Web. La limite de la vitesse d’exploration empêche Google de faire trop de requêtes car cela pourrait ralentir la vitesse de votre site Web. La vitesse du crawl peut augmenter ou diminuer en fonction de :

  • La vitesse de votre site : si la vitesse de votre site est lente ou si le temps de réponse du serveur est faible, la vitesse du crawl baisse et Googlebot analyse uniquement quelques-unes de vos pages. Si votre site réagit rapidement, le crawling peut alors augmenter.
  • Vous pouvez définir une limite de vitesse de crawling dans la console de recherche. Toutefois, si vous définissez une limite élevée cela ne garantira pas un taux d’analyse plus grand.

La demande de crawl

Ce facteur détermine quelles pages et combien de pages doivent être visitées au cours d’une même analyse. Si Googlebot juge une URL suffisamment importante, il la placera plus haut dans le calendrier. Selon Google, l’importance d’une URL est évaluée par :

  • La popularité – les URL souvent partagées avec un bon netlinking sur Internet seront considérées comme plus importantes et auront donc une plus grande chance d’être explorées par Googlebot. La popularité est étroitement liée à l’autorité d’une page.
  • Un contenu à jour – de manière générale, le contenu frais a une priorité plus élevée que les pages qui n’ont pas beaucoup changé au fil des ans.

De plus, des événements ayant lieu sur le site (tels qu’un changement de serveur) peuvent entraîner une augmentation de la demande d’analyse. Tout simplement parce que Google doit réindexer le contenu avec les nouvelles URL.

Comment optimiser le crawl budget ?

Vous en savez déjà beaucoup plus sur le crawl budget, son fonctionnement et comment Googlebot travaile. Désormais, passons à la phase d’optimisation de ce crawl budget.

Robots.txt, le roi de tous les robots

Un fichier texte minuscule appelé robots.txt est l’un des outils les plus puissants que vous pouvez utiliser pour régler des problèmes d’exploration. Il contient des directives auxquelles Googlebot doit obéir.

Points importants à garder à l’esprit :

  • La directive Disallow: dans le fichier robots.txt n’empêche pas l’indexation de la page. Il ne bloquera que l’accès à une certaine page à partir de liens internes. Cependant, si le bot entre dans une URL à partir d’une source externe, la page peut toujours être indexée. Si vous souhaitez qu’une certaine page n’apparaisse pas dans l’index de Google, vous devez utiliser des balises Meta Robots.
  • Vous ne devez jamais interdire les chemins d’accès aux ressources (telles que CSS et Javascript) essentielles au bon rendu des pages. Le bot doit pouvoir découvrir le contenu complet des pages.
  • Après avoir créé un fichier robots, n’oubliez pas de le soumettre à Google via la Search Console

La création d’un sitemap.xml peut aider à une analyse efficace

Selon Gary Illyes, le sitemap XML est le deuxième meilleur moyen pour Google de découvrir les pages d’un site Internet (le premier étant, bien entendu, les liens). Ce n’est pas une découverte énorme, car beaucoup de personnes savent qu’un fichier sitemap.xml correctement créé servira de retour d’information pour Googlebot. Il peut y trouver toutes les pages importantes de votre site Web mais aussi remarquer les changements récents qui ont eu lieu. Par conséquent, il est essentiel de garder vos sitemaps à jour et sans bugs.

Que doit-on inclure dans le Sitemap ?

  • Les URL renvoyant un code de statut de réponse HTTP 200;
  • Puis les URL ayant des balises meta robots : index, follow;
  • Enfin toutes les URL canoniques

Vous devez également envoyer votre Sitemap à Google à l’aide de la Search Console. Il est également recommandé de placer un lien vers votre Sitemap dans le fichier robots.txt à l’aide de la commande suivante : Sitemap: VOTREURL

Faisons le point sur votre stratégie e-marketing - Audit gratuit !
Elaine Goldfarb
Elaine, Directrice de production et pilier de l'agence Churchill depuis près 20 ans, a guidé et supervisé d'innombrables refontes de sites internet, affirmant sa position en tant que véritable experte en création de site web. Avec une profonde connaissance en UX, design et développement, elle est la force motrice derrière la transformation digitale de + de 150 clients.
CONTINUEZ SUR LE SUJETLes articles dans la même catégorie
campagne_publicitaire
lundi 26 Fév .2024

Vous avez décidé de vous tourner vers le référencement publicitaire (SEA) pour booster votre visibilité auprès d’une audience cible. Il vous faut maintenant choisir la plateforme qui diffusera votre annonce. Google Adwords ? Facebook Ads ? LinkedIn Ads ? Chacune de ces solutions a ses qualités et ses défauts. On fait le point.

mercredi 21 Juin .2023

Aujourd’hui, Google prend en compte plus de 200 facteurs lorsqu’il détermine l’ordre hiérarchique d’une SERP. Vous ne pourrez peut être pas agir sur tous ces leviers, mais ne négligez pas l’optimalisation de l’un des facteurs de classement les plus importants : l’autorité de domaine, qui correspond à la réputation de votre site Web.

Stratégie netlinking pour optimiser le SEO
mercredi 15 Mar .2023

Le SEO off-page est l’ensemble des critères d’optimisation émanant de liens externes à votre site web et qui indique à Google que votre site est une référence dans son domaine. Comment s’assurer que votre stratégie de Netlinking est efficace ? Voici les 3 critères du SEO off-page à prendre en compte.