Analyse et étude du Crawl Google pour le SEO via les logs

Les logs serveurs, une existence depuis la nuit des temps ! Pourtant de manière visible, c’est depuis trois ou quatre ans qu’on a vu surgir certains articles à ce sujet, deux ans qu’on commence sérieusement à s’y intéresser et maintenant qu’ils se démocratisent totalement. Certains consultants ou agence SEO ne font d’ailleurs plus d’audit sur de gros sites sans ces données. Mais au fait, à quoi ça sert et comment ça marche ?

C’est toujours aussi étonnant de voir comment un référenceur peut être un champion de la technique ou un littéraire dans l’âme. Ici, vous l’avez compris, sauf à avoir à disposition un mec qui te met en place le tout, il va falloir sortir le tournevis pour opter pour la bonne méthode d’analyse des données. De notre coté, nous avons fait un choix à l’agence KEEG : celui de développer notre propre tool. Oui, on est des fous ici (ou pas). Pour analyser efficacement des logs, vous avez le choix entre plusieurs possibilités :

Excel, avec les limites que cela entraîne
Un tool / SaaS certainement payant, pas forcément 100% adapté au besoin (mais ça progresse bien)
Un outil développé maison, collant au besoin

Nous avons fait le choix numéro trois pour au moins trois raisons :

Créer un outil simple, capable de s’adapter à n’importe quelle situation, et vraiment n’importe quelle situation
Créer un outil qu’on peut faire évoluer comme on le souhaite
Avoir notre propre outil, parce que je trouve ça vraiment sympa

Bref, chacun fait son choix et d’ailleurs il est possible qu’on combine à l’avenir notre propre tool et un tool pro.

J’ai pendant longtemps, à une autre époque du SEO, travaillé avec mes propres tools avec une grande efficacité. J’espère peu à peu y revenir avec ma team, à commencer par cet outil. Flop ou pas, l’avenir nous le dira. Dans tout les cas de figure, si vous souhaitez vous lancer, il faut bien mesurer et calibrer le choix que vous allez faire à ce niveau ; et je ne prétends pas avoir la bonne solution, ni conseiller aujourd’hui un outil.

L’avis Logs de Fabien de l’agence seo vip-agence.com

Pour moi l’intérêt de l’étude des logs c’est de pouvoir voir le comportement de « googlebot » sur ton site afin d’améliorer le crawl sur les pages importantes et ainsi améliorer la circulation du jus sur son site internet. J’aime beaucoup la phrase de Htitipi : Ne pas prendre en compte les logs en SEO, revient à faire du SEO en aveugle.

Vous l’avez compris, ce billet est aussi là pour moi pour synthétiser les besoins de développement (réflexion, rédaction, action) et j’aime bien fonctionner de la sorte. Je ne prétend pas amener de nouveauté (et même bien au contraire) sur cet article mais plutôt synthétiser les choses pour moi et à ma manière.

Les logs serveurs, c’est quoi et comment ça marche ?

Tu crois que je suis ingénieur serveur ou quoi ?

Bon sérieux mon gros, on commence à parler logs où on se fait une belote ?

Rapidement, les serveurs enregistrent les appels effectués aux serveurs dans un fichier qui contient les logs des différents accès serveur. Du coup et c’est plutôt sympa, ce fichier est une véritable mine d’or puisqu’il est par essence exhaustif et complet. Mais, par logique pure, ce fichier est parfaitement inutilisable dans son état premier.

Quelles informations sont dans les logs serveur ?

A mon avis, un paquet de trucs incompréhensibles pour le commun des mortels

On retrouve un notamment des informations qui vont clairement nous intéresser pour identifier et traiter la data :

IP du client
(utilisateur)
Date / heure
Adresse visitée
Code de réponse du serveur
User Agent
Taille de l’objet

Ces informations sont parfaites pour analyser les visiteurs, des piratages et bien entendu améliorer le référencement d’un site Internet. Marrant, on dirait que je donne un cours à ma grand-mère.

Pourquoi analyser les logs devient essentiel en référencement

Parce qu’il faut bien qu’on justifie notre facture avec du lourd et des notions de poneys que nous seul comprenons.

Vous voyez qu’à partir de là, on peut totalement tracker l’ensemble des visites sur un serveur. Ce qui nous intéresse fondamentalement pour le référencement, c’est le passage de Google. Par où passe Google ? Quel est son comportement ? Vient-il sur mes pages ? Sur les bonnes pages ? C’est un peu la grosse nouveauté grand public de ces dernières années : vérifier et ajuster le comportement de Google pour espérer obtenir un meilleur ranking et un meilleur trafic.

Pourquoi le crawl est essentiel en SEO ?

Parce qu’il faut des routes pour utiliser les voitures

Et en réalité, c’est vraiment le fondement des actions SEO. Je me souvient très bien qu’au début de mes interventions référencement à l’université aux petits étudiant(e)s, j’explicitais (et explicite encore) quasiment dès le commencement de mes interventions le fonctionnement même d’un moteur de recherche. Pourtant, alors qu’on avait tous la réponse devant le nez, très peu de gens dans le milieu SEO se posait la véritablement la question de comment analyser avec précision ce comportement, moi compris.

L’avis Logs de Quentin (@Quentin_Adt) de kelo.gs

L’analyse des logs serveur permet d’améliorer rapidement l’exploration d’un site par les robots de crawl en identifiant les freins techniques et en facilitant le travail de Google. Les principaux freins peuvent être des spider-trap (pièges à robots), des erreurs 500 ou 404, des pages non linkées ou des pages trop profondes dans l’architecture par exemple.

On considère pour chaque site un budget crawl. Google va venir crawler un site Internet dans la limite de ce qu’il juge nécessaire et dans un objectif d’optimisation de ressource. De fait, deux leviers s’offrent à nous :

Augmenter son budget crawl
Faire en sorte que le / les bot(s) passent au bon endroit

De manière globale, on constate nettement que l’optimisation du crawl est généralement plus simple que l’augmentation du budget crawl, tout simplement parce qu’on arrive sur une zone jamais travaillé. Bien entendu, tout dépend du site, d’où le nécessité d’observer les logs dans de nombreux cas.

Pour qui ?

Pour toi, surtout si tu as une envie, par hasard, de travailler ton SEO

Les gros sites… mais à mes yeux, pas que. Bien entendu, un travail sur les logs est nettement plus essentiel sur un gros site que sur un petit :

La surface d’analyse est très large
Les erreurs sont possiblement nombreuses
Les préconisations vont porter sur une surface site importante

Sur un petit site, il est évident qu’il sera nécessairement plus percutant d’optimiser, rédiger quelques contenus et amener trois pâquerettes en guise de popularité. Il n’empêche de vérifier rapidement les logs, rien que par une lecture simple des passages Google.

Quelles données traiter avec les logs pour le référencement ?

Si tu te poses encore la question, c’est que tu es bien ici et continue la lecture

Bien entendu, le pré-requis est de bien cibler Google (ou le moteur de recherche cible). Le User Agent ne suffit clairement pas, il faut aller plus loin que cela pour être plus certain de récupérer véritable du Google Bot. Sachant que deux difficultés s’offrent quand même à nous :

Vous ne pourrez jamais être 100% sûr de récupérer vraiment du Google Bot
Dans certains cas précis, vous ne pourrez pas trier avec l’IP

De fait, vous avez toujours une marge d’erreur, l’objectif sera de chercher à la limiter.

L’avis Logs de Jean-Benoît (@jeanbenoit) de Watussi.fr

En SEO nous sommes généralement aveugles. L’analyse de logs est le seul moyen d’étudier le comportement des robots d’indexation sur notre site. Grâce à eux nous ne sommes plus que malvoyants. En phase d’audit, l’analyse de logs permet de découvrir des points de blocage insoupçonnés. En phase de monitoring, ils permettent de détecter très rapidement des problèmes, lors d’une mise en production par exemple.

Au delà de ça, voilà ce qu’on peut étudier avec ces fameux logs. Me concernant, je classe cet ensemble du deux parties : Logs simples et Logs VS données comparatives.

Log simples

« Simple », c’est pour se la raconter un peu. C’est comme quand ton prof de math vient te voir en te disant « tu vas voir, c’est simple ».

Etude des codes de réponse

Les logs permettent de regarder quels sont les codes de réponses renvoyé par le serveur lorsque notre ami Google se promène gentiment sur notre site chéri. On retrouvera très majoritairement ce type de réponse :

500 : erreur serveur
404 : page non trouvée
403 : accès refusé
302 : redirection temporaire
301 : redirection permanente
200 : oh yeah !

Une approche fine avec l’ensemble des codes de réponse permet directement de détecter les potentielles erreurs du site ou de pratique d’administration et d’usage. Il existe un grand nombre de code de réponse que vous pouvez aller voir ici.

Fréquence de crawl

Très basiquement, on peut observer la fréquence de crawl et surtout la fréquence de crawl (ou de non crawl par page). Imaginez les leviers d’actions qu’on peut avoir rien qu’en traitant au mieux les problématiques relevées à ce sujet.

Découverte de nouvelles pages

Sur un suivi un peu plus large, une étude permet de constater quelles sont les nouvelles pages découvertes et à quel moment. Ensuite, à chacun de juger de la légitimité de la page et de la date de découverte.

En fonction des User Agent (robots d’exploration)

Trier pour juger quels bots Google (et les autres) peut être un objectif majeur selon les directions qui prend votre site Internet.

GoogleBot passe-t-il chez moi ?
GoogleBot Actualités passe-t-il chez moi ?
GoogleBot Mobile passe-t-il chez moi ?
Et tous les autres !

Autant de questions totalement fondamentale aujourd’hui et à prendre en considération selon le site sur lequel vous travaillez.

Mais aussi :

Pourcentage de crawl par type de fichier
Par type d’URL si elle sont taguées
Budget crawl utile / inutile

Logs VS données comparatives

« Comparative » tu es sûr ? Parce qu’avec des données qu’on ne peut pas comparer, c’est plus sympa.

Au delà de la simple étude des logs qui permet déjà d’avoir une bonne somme d’information, l’intérêt suprême revient dans le croisement de données. Croiser les données de logs avec d’autres données revient à disposer d’une grande finesse dans son approche référencement. Les possibilités à ce niveau sont quasiment infinies.

Bien entendu, j’attire l’attention sur un point particulièrement sensible : il ne faut pas se noyer dans la donnée. La data n’a du sens qu’à partir du moment où elle est calibré et utilisable. Il vaut mieux peu de data utilisable qu’une amoncellement de chiffres qui au final seront soit intraitable, soit pire, en contradiction. Il revient aussi à l’adage : le résultat référencement est l’unique fruit du travail productif.

Rapport entre logs et crawl / autres données

Rien qu’avec ce point là, les possibilités sont énormes :

Crawl et page du site
Crawl et paramètres d’optimisation de page
Crawl et canonical, Meta Robots
Crawl et niveau de profondeur
…

Aujourd’hui certain outil sur le marché propose ce type de fonctionnalité. C’est pratiquement une base de travail quand on se lance sur les logs et le crawl.

L’avis Logs de Julien (@diije) et son profil linkedin

J’insisterai sur l’importance de ne pas se contenter d’analyser juste les logs : il faut croiser les données avec d’autres sources. Le crawl c’est un bon début, mais Analytics ou Search Console permettent d’aller assez loin aussi.

Je pense que je vais en rester là à ce stade. Les possibilités comme indiqué sont immenses et vont dépendre des problématiques auxquelles le site est confronté :

Rapport entre logs et sitemap
Rapport entre logs et données Search Console
Rapport entre logs et liens entrants
Rapport entre logs et pages indexées
Rapport entre logs et visiteurs
Rapport entre logs et positionnement

Et j’en passe en pagaille. L’idée finale dans une approche structurée et de pouvoir mesurer l’impact des actions sur le crawl Google.

De notre coté, on s’y met et très certainement davantage encore avec notre outil à venir.

Je vous propose un peu de lecture pour continuer :

L’un des articles de référencement sur le sujet qui m’a donné mon collègue Guillaume il y a quelques temps : Log file analysis The ultimate guide
L’article récent de l’excellent confrère Aurélien : Méthode et réflexions sur l’analyse des logs pour le SEO
Les slides de Julien au SEO Campus Nantes : Analyse de logs SEO : pour qui, pour quoi, comment ?
Un article du champion Loic Helias : Prestashop : maîtriser son crawl pour indexer 100% de son catalogue

Crédit photo : Woody Hibbard

8s Commentaires à “[Logs] Analyse du Crawl Google pour le SEO”

Tk 14 mars 2016

Juste pour information : J’utilise Log Parser Pro, pour parser les logs et faire du requêtage dessus.
Répondre
- Alexandre Santoni 15 mars 2016
  
  Merci pour l’information !
  Répondre
Lionel 14 mars 2016

Bonjour,

Votre projet est-il assez générique pour envisager d’en ouvrir les sources ?
Nous serions clairement intéressés, même si de telles alternatives existent déjà ici par exemple :
https://github.com/cogniteev/oncrawl-elk
Répondre
- Alexandre Santoni 15 mars 2016
  
  Au delà des alternatives existantes et qui resteront plus puissantes (d’où sans doute une double utilisation de notre part), l’idée est de coller à tous les cas de figure, notamment sur la récolte propre des logs, la simplicité d’installation et l’analyse simple. Concernant la suite de ce projet, je n’ai pas tranché entre outil seulement interne (le but initial) ou plus.
  Répondre
Smart Ranking 7 avril 2016

En effet, l’analyse de logs est indispensable dès qu’on commence à parler d’e-commerce avec un CA important…
Toutes les grosses sociétés de SEO exploitent les données fournies par le Log.
Répondre
Julien 20 juin 2016

C’est un super article, je commence de plus en plus à m’intéresser au SEO (ce n’est pas ma spécialité), et à tous ce qu’il y a avec ça et on oublie vraiment beaucoup de chose que logs peuvent nous apprendre lorsqu’on les analyses. J’utilise spiderlogs pour les analyser je trouve ce soft assez bien fait
Répondre
f4b1 2 août 2016

Un grand merci pour toutes ces instructions, je vais m’y mettre sérieusement à consulter les données de logs et sans article cela aurait été beaucoup plus compliqué ! Merci pour tout ces conseils très précis !
Répondre
John 6 novembre 2017

Bonjour Alexandre,
Je vous remercie pour cet article bien informatif ! J’ai beaucoup appris de ce billet avec toutes les informations que vous présentez. Je vais commencer à analyser les logs en suivant vos instructions.
Bonne continuation,
John
Répondre

[Logs] Analyse du Crawl Google pour le SEO

Les logs serveurs, c’est quoi et comment ça marche ?

Quelles informations sont dans les logs serveur ?

Pourquoi analyser les logs devient essentiel en référencement

Pourquoi le crawl est essentiel en SEO ?

Pour qui ?

Quelles données traiter avec les logs pour le référencement ?

Log simples

Etude des codes de réponse

Fréquence de crawl

Découverte de nouvelles pages

En fonction des User Agent (robots d’exploration)

Logs VS données comparatives

Rapport entre logs et crawl / autres données

Articles similaires

8s Commentaires à “[Logs] Analyse du Crawl Google pour le SEO”

Laisser un Commentaire à Alexandre Santoni

KEEG : visibilité Web

Nous situer

Notre actualité

Les logs serveurs, c’est quoi et comment ça marche ?

Quelles informations sont dans les logs serveur ?

Pourquoi analyser les logs devient essentiel en référencement

Pourquoi le crawl est essentiel en SEO ?

Pour qui ?

Quelles données traiter avec les logs pour le référencement ?

Log simples

Etude des codes de réponse

Fréquence de crawl

Découverte de nouvelles pages

En fonction des User Agent (robots d’exploration)

Logs VS données comparatives

Rapport entre logs et crawl / autres données

Partager :

Articles similaires

8s Commentaires à “[Logs] Analyse du Crawl Google pour le SEO”

Laisser un Commentaire à Alexandre Santoni

KEEG : visibilité Web

Nous situer

Notre actualité