jeudi 26 Sep .19

Qu’est-ce que le crawl budget ?

Crawl budget

Si vous souhaitez que les pages de votre site soient indexées rapidement, vous devez comprendre la signification du crawl budget. Cela concerne tous les sites, grands et petits, vitrine ou e-commerce. Cependant, certaines typologies de sites web sont les plus concernées :  les « grands » sites qui comptent des milliers de pages, les sites contenant quelques erreurs techniques ou les sites avec des fonctionnalités uniques générant des URL. Le concept du crawl budget était, auparavant, un jeu de devinettes entre les spécialistes en référencement. Chacun en avait d’ailleurs sa propre définition ! Cependant, grâce à Google, nous sommes désormais bien mieux informés sur ce qu’est le crawl budget. C’est ce que nous allons voir dans cet article.

Qu’est-ce que le crawling en SEO ?

Google envoie ses robots appelés Googlebot explorer vos pages Web et indexer les mots et le contenu qu’elles contiennent. Une fois l’exploration terminée, ces résultats sont placés dans l’index de Google. Il est donc important que Google trouve facilement toutes les pages de votre site. Par conséquent, pour qu’un Googlebot trouve facilement toutes les URL, un sitemap est indispensable.

Si votre site contient quelques centaines d’URL, le moteur de recherche les explorera facilement. Toutefois, si votre site Web contient des milliers de pages et que de nombreuses nouvelles URL sont générées automatiquement chaque jour, il se peut que Google n’explore pas toutes ces pages. Par conséquent, il devient important de hiérarchiser les éléments à explorer, le moment et le volume à explorer.

Qu’est-ce que le crawl budget ?

Comme nous l’avons vu précédemment, Googlebot est le nom donné au robot qui explore votre site à la recherche de pages à ajouter à l’index Google. Vous pouvez le voir comme un internaute numérique. Comme il existe des milliards et des milliards de pages sur le Web, il serait peu pratique pour Googlebot de les explorer chaque seconde de chaque jour. Cela consomme beaucoup de bande passante, ce qui ralentit les performances des sites Web. Google alloue donc un budget d’analyse à chaque site Web. Ce budget détermine la fréquence à laquelle Googlebot explore le site à la recherche de pages à indexer. Google définit la mission du crawl budget comme suit : « Définir par ordre de priorité les éléments à analyser, le moment et les ressources que le serveur hébergeant le site Web peut allouer à l’analyse.. »

Nous pouvons donc définir le crawl budget comme « le nombre de pages Web ou d’URL que Googlebot peut ou souhaite analyser à partir de votre site Web ».

Etablir une limite pour le crawl

Limiter la vitesse du crawl est possible afin que Google n’explore pas trop de pages trop rapidement sur votre site Web. La limite de la vitesse d’exploration empêche Google de faire trop de requêtes car cela pourrait ralentir la vitesse de votre site Web. La vitesse du crawl peut augmenter ou diminuer en fonction de :

  • La vitesse de votre site : si la vitesse de votre site est lente ou si le temps de réponse du serveur est faible, la vitesse du crawl baisse et Googlebot analyse uniquement quelques-unes de vos pages. Si votre site réagit rapidement, le crawling peut alors augmenter.
  • Vous pouvez définir une limite de vitesse de crawling dans la console de recherche. Toutefois, si vous définissez une limite élevée cela ne garantira pas un taux d’analyse plus grand.

La demande de crawl

Ce facteur détermine quelles pages et combien de pages doivent être visitées au cours d’une même analyse. Si Googlebot juge une URL suffisamment importante, il la placera plus haut dans le calendrier. Selon Google, l’importance d’une URL est évaluée par :

  • La popularité – les URL souvent partagées avec un bon netlinking sur Internet seront considérées comme plus importantes et auront donc une plus grande chance d’être explorées par Googlebot. La popularité est étroitement liée à l’autorité d’une page.
  • Un contenu à jour – de manière générale, le contenu frais a une priorité plus élevée que les pages qui n’ont pas beaucoup changé au fil des ans.

De plus, des événements ayant lieu sur le site (tels qu’un changement de serveur) peuvent entraîner une augmentation de la demande d’analyse. Tout simplement parce que Google doit réindexer le contenu avec les nouvelles URL.

Comment optimiser le crawl budget ?

Vous en savez déjà beaucoup plus sur le crawl budget, son fonctionnement et comment Googlebot travaile. Désormais, passons à la phase d’optimisation de ce crawl budget.

Robots.txt, le roi de tous les robots

Un fichier texte minuscule appelé robots.txt est l’un des outils les plus puissants que vous pouvez utiliser pour régler des problèmes d’exploration. Il contient des directives auxquelles Googlebot doit obéir.

Points importants à garder à l’esprit :

  • La directive Disallow : dans le fichier robots.txt n’empêche pas l’indexation de la page. Il ne bloquera que l’accès à une certaine page à partir de liens internes. Cependant, si le bot entre dans une URL à partir d’une source externe, la page peut toujours être indexée. Si vous souhaitez qu’une certaine page n’apparaisse pas dans l’index de Google, vous devez utiliser des balises Meta Robots.
  • Vous ne devez jamais interdire les chemins d’accès aux ressources (telles que CSS et Javascript) essentielles au bon rendu des pages. Le bot doit pouvoir découvrir le contenu complet des pages.
  • Après avoir créé un fichier robots, n’oubliez pas de le soumettre à Google via la Search Console

La création d’un sitemap.xml peut aider à une analyse efficace

Selon Gary Illyes, le sitemap XML est le deuxième meilleur moyen pour Google de découvrir les pages d’un site Internet (le premier étant, bien entendu, les liens). Ce n’est pas une découverte énorme, car beaucoup de personnes savent qu’un fichier sitemap.xml correctement créé servira de retour d’information pour Googlebot. Il peut y trouver toutes les pages importantes de votre site Web mais aussi remarquer les changements récents qui ont eu lieu. Par conséquent, il est essentiel de garder vos sitemaps à jour et sans bugs.

Que doit-on inclure dans le Sitemap ?

  • Les URL renvoyant un code de statut de réponse HTTP 200 ;
  • Puis les URL ayant des balises meta robots : index, follow ;
  • Enfin toutes les URL canoniques

Vous devez également envoyer votre Sitemap à Google à l’aide de la Search Console. Il est également recommandé de placer un lien vers votre Sitemap dans le fichier robots.txt à l’aide de la commande suivante : Sitemap : VOTREURL

Faisons le point sur votre stratégie e-marketing, contactez-nous
CONTINUEZ SUR LE SUJETLes articles dans la même catégorie
Taux de rebond
jeudi 17 Oct .2019

Votre taux de rebond est trop élevé et vous souhaitez le réduire ? Vous avez raison ! Un taux de rebond élevé mène habituellement à un taux de conversion décevant. Si la majorité de vos utilisateurs abandonnent votre site web sur la

Sources de trafic
mardi 10 Sep .2019

Le marketing numérique permet de comprendre quand et comment vos clients trouvent votre site web. Cela aide à déterminer quelles stratégies fonctionnent le mieux et celles qui doivent être revues. Pour tirer le meilleur parti de ces données, il est essentiel de comprendre exactement comment Google trie et analyse votre trafic. C’est ce que nous allons voir dans cet article !

Mots clés performants
mardi 03 Sep .2019

Il devient de plus en plus compliqué d’analyser les sources de trafic et les mots-clés porteurs sur un site. Plus de 90% des informations sont maintenant présentées aux webmasters comme simplement « not provided ». Comment identifier les mots-clés vecteurs de trafic en cette ère de données inconnues et incomplètes ?