Nous rendons le référencement accessible

Votre compte formation

Votre compte formation vous permet d'accéder à la liste de vos formations ou pour vous pré-inscrire à de nouvelles

Félicitation,

Accéder au logiciel Optimiz.me

Se connecter au logiciel
Votre site en première page de Google

Indexation : comprendre le fonctionnement de l’index Google

Environ 2 minutes de lecture

Vous vous demander comment indexer un site sur internet et dans Google plus particulièrement ? Nous vous expliquons dans le Guide du référencement le principe de l’indexation d’un site et le fonctionnement des moteurs de recherche.

Comment fonctionne un système d’indexation et quels sont les principes qui se cachent derrière ce terme technique ?

 

Définition de l’indexation

L’indexation désigne l’action du robot (c’est-à-dire d’un programme) d’un moteur de recherche qui passe sur un site, le parcourt (phase dite de « crawl » du verbe « parcourir » en anglais) et indexe son contenu. Lorsque l’on dit que le robot (le spider) indexe un site, cela signifie qu’il visite le site, en copie le contenu et le stocke dans les serveurs du moteur de recherche.

Nous utiliserons ici le terme « indexation » au sens de l’indexation Google. Nous ne traiterons pas de l’indexation Yahoo et Bing (les deux autres principaux moteurs de recherche) ; retenez simplement que les systèmes d’indexation sont assez proches dans leur fonctionnement.googlebot

La première phase est une phase d’exploration du web : le robot d’exploration (ou robot d’indexation) de Google, nommé le Googlebot, va explorer les pages du web et suivre les liens présents sur ces pages pour découvrir au fur et à mesure de nouvelles pages et de nouveaux contenus. Il visite les pages et les indexe dans la base de données (c’est-à-dire, qu’il copie et enregistre les pages dans les serveurs situés dans les data center de Google).

 

La taille de l’index Google

L’index correspond à la base de données de Google. Aujourd’hui, la taille de l’index est estimée à plus de 30 000 milliards d’URL (données Wikipédia 2013), soit plus de 100 milliards de pages au minimum.

Remarque : l’index de Google ne représente pas tout le web. Le web dans sa globalité est beaucoup plus vaste puisque Google indexe seulement les pages « indexables », c’est-à-dire les pages auxquelles son robot peut accéder. Nous verrons plus loin qu’il existe des méthodes pour bloquer l’indexation de certaines pages.

 

Faites vous même votre référencement, même sans connaissances techniques

J’essaye gratuitement 14 jours

 

Les différents index

Depuis 2003, Google fonctionne avec 2 index. Il n’existe donc pas un index Google mais bien des index Google.

  • L’index principal : qui correspond aux pages désignées par Google comme étant les plus intéressantes parmi toutes celles indexées.

 

  • L’index secondaire : il est composé des pages « de second choix », autrement dire celles de moindre qualité. Ce sera notamment le cas des pages dupliquées (problématique de duplicate content) ou jugées de « mauvaise qualité » par Google. Ces pages de contenu similaire seront ignorées par Google et ne ressortiront dans les SERPS (les pages de résultats) que si l’internaute en fait la demande expresse en cliquant sur le message « Relancer la recherche en incluant les pages ignorées » affiché tout en bas de la page de résultats.

 

Vous identifiez facilement une page issue de ce deuxième index par la mention « Résultat complémentaire » affichée en vert juste après le contenu de la balise meta description dans les pages de résultats de Google.

Tous les sites ne sont donc pas placés au même niveau de valeur aux yeux de Google et il est aisé de comprendre que vous aurez tout intérêt à positionner vos pages stratégiques dans l’index principal et non dans le secondaire.

Remarque sur la notion « d’index inversé » : le terme d’index inversé désigne, non pas un index de documents mais un index de mots-clés et son interaction avec l’index de documents.

 

Rafraîchissement de l’index

En 2010, Google a mis en place un changement d’infrastructure technique, connue sous le nom de Caffeine.

Cela a eu plusieurs effets sur le mode d’indexation :

  • Accélération de la constitution de l’index

 

  • Amélioration de le fraîcheur de l’index

 

Désormais :

  • Une fois la page crawlée et indexée par les robots de Google, elle est directement accessible dans les résultats de recherche ; ce qui n’était pas le cas auparavant.

 

  • Les mises à jour de l’index ont lieu de manière continue et partout dans le monde. Dans l’ancienne version, l’index fonctionnait en couches avec des mises à jour, c’est-à-dire des rafraîchissements plus aléatoires.

 

  • Les pages d’actualités sont intégrées à l’index beaucoup plus rapidement (quelques minutes seulement après leur publication pour certaines).

 

Indexer un site

Il est possible de demander à Google l’indexation d’un site. Pour cela vous pouvez utiliser le formulaire de soumission ou demander à un site extérieur de faire un lien vers vous. Quand le robot de Google reviendra sur ce site externe, il trouvera le lien vers votre site, le suivra et indexera alors toutes les pages accessibles de votre site.

Cette deuxième solution (placer un backlink) est très pratique et rapide ; le temps d’indexation sera d’autant plus court que le site qui vous fait ce lien est souvent mis à jour (le robot a alors déjà l’habitude de revenir le crawler à fréquence régulière).

 

Forcer l’indexation

Depuis l’outil pour les webmasters (GWT), vous avez la possibilité d’indiquer à Google une page à indexer rapidement. Google précise que cela sera fait dans un délai de 24h, mais sans aucune garantie.

google indexation

Attention toutefois à ne pas envoyer trop d’URL pour l’indexation. Il existe en effet un quota d’indexation qu’il est judicieux d’utiliser sur des pages stratégiques.

 

Supprimer un site de l’index Google

Supprimer un site de l’index google revient à supprimer le site de la base de données. Il est possible de retirer des pages de l’index : ainsi, elles ne seront plus prises en compte par le robot lors de la prochaine exploration du web.

Comment faire ?

  • Suppression en urgence : ajoutez les URL à supprimer dans un fichier sitemap et utilisez la balise expires.

 

  • Dans les Google Webmaster Tools : rendez-vous sur « Index Google » puis dans la section « URL à supprimer ».

 

Connaître l’état d’indexation et les versions en cache

La version en cache d’une page correspond à la version de la page telle qu’elle était lors du dernier passage du robot d’indexation. C’est une information disponible : il vous suffit d’utiliser la commande « cache » (voir image ci-dessous) puis de mentionner l’adresse du site. Vous savez ainsi quel jour et à quelle heure précise est passé le Googlebot (le robot de Google) pour la dernière fois.

version cache d'un site

Le cache permet aux robots d’indexation de savoir si la page a changé (ajout de contenu, d’image, modification des liens,…) depuis sa dernière visite. Il compare la version « en cache » de la page à celle qu’il « voit » actuellement et indexe à nouveau la page s’il constate des changements. Le but de Google étant d’avoir dans son index les pages les plus « fraîches » possibles.

version cache google

Si vous constatez que certaines de vos pages ne sont pas explorées par Google et peu « recrawlées », c’est-à-dire peu revisitées par le Googlebot cela devra vous alerter sur la qualité de ces pages. En effet, si le spider (le robot) passe de moins en moins sur certaines pages ce n’est pas un signe positif.

Google est un moteur que l’on qualifie parfois, à titre d’exemple illustré « d’obsédé textuel« , cela signifie qu’il se nourrit de textes et de données. Plus vous lui donnez de texte avec des mises à jour fréquentes de votre site, plus il viendra le visiter. Un site actif sera visité et indexé plus régulièrement par les robots qu’un site ancien sans nouveau contenu.

 

Comment savoir si des pages sont dans l’index ?

Pour vérifier si vos pages sont présentes dans l’index, effectuez la requête suivante : site:www.votresite.com qui vous indiquera le nombre de résultats obtenus par Google sur cette requête. Ce nombre correspond à la liste des pages de votre site indexées (de manière générales).

indexation pages

Pour savoir ensuite quelle proportion de page est dans l’index principal : effectuez la même recherche (site:www.votresite.com) mais dans le moteur de recherche de SFR qui utilise seulement l’index principal. Vous avez ici le nombre de pages présentes dans l’index global de Google.

index global google

En comparant les 2 résultats (Google et SFR), vous saurez  quel est le nombre de vos pages figurant dans l’index principal et dans le secondaire.

 

La soumission aux moteurs

Dans cette partie dédiée à la soumission aux moteurs, nous verrons comment soumettre votre site aux moteurs.

 

Le fonctionnement de Google

De manière très simplifiée, le fonctionnement de Google peut être expliqué en 4 grandes étapes :

  • La phase de crawl
  • La phase d’indexation
  • La phase de traitement des données
  • La phase de restitution

Nous reviendrons en détails sur chacune de ces étapes de l’organisation de Google.

 

Articles similaires