Selon la documentation en ligne fournie par Google à destination des webmasters :

« L’index Google est comparable au catalogue d’une bibliothèque, qui fournit des informations sur tous les livres disponibles dans la bibliothèque. »

— Indexer les pages à inclure dans les résultats de recherche, Support.google.com

Le travail de Google est donc clair. Il s'agit de parcourir l'ensemble des contenus publiés sur le Web et de classer les informations. La méthode de classification prend la forme d'un moteur de recherche qui propose des résultats en fonction de certains critères (plus ou moins identifiés).
Ceux qui fréquentent les bibliothèques et les documentalistes sont familiarisés avec la classification de Dewey, c'est un système comme un autre ! Le tout est de réussir à s'y retrouver parmi les rayons et les étagères. En ce qui concerne le Web, si l'on imagine la plus grande et la plus complexe des bibliothèques, c'est comme si à chaque publication en ligne, quelqu'un entrait dans la salle pour poser un ouvrage ou une seule page. Ensuite il faut se débrouiller avec. Et c'est cela des milliards de fois par jour.

Un pari

Lorsque l'on parle de SEO, on a tendance à penser naturellement à la façon d’acquérir de la visibilité. C'est sans doute les mots « ranking » ou « position » qui apparaissent les plus rapidement dans nos esprits. Pourtant, le fait d'être bien classé est déjà une étape avancée. Car rien n'est possible si l'indexation n'est pas effective.

Aparté, il faut se rendre compte de la prouesse technique - et même du pari - de souhaiter

parcourir l'ensemble des contenus en ligne pour stocker les informations,
analyser les sujets,
traiter l'ensemble afin de délivrer un classement pertinent.

Or Google ne serait pas Google si tous ces robots n'allaient pas fouiller en continu le Web pour récolter toutes ces données, en continu et dans un but d'exhaustivité.

Quelle différence entre Google et une bibliothèque ?

Que répondez-vous si je vous demande de nommer une encyclopédie ?

Wikipédia ?

Indexation par fiches
L'existence même d'une fiche est soumise à débat. Qu'est-ce qui justifie l'absence de personnes réelles et reconnues dans leurs métiers, tandis que des personnages fictifs comme Pikachu disposent d'une page sur Wikipédia ?
Problématique des sources de première main. Il faut avoir été cité de nombreuses fois par d'autres fiches. Il s’agit d’une méthode de sélection des sujets à traiter intéressante mais qui peut avoir ses failles.

Encyclopédie Larousse

Légitimité académique.

Dictionnaire

Chaque année nous assistons au débat concernant les nouveaux mots admis dans le dictionnaire. C'est un marqueur de l'évolution de la langue française, mais l'entrée dans le dictionnaire n'est pas instantanée non plus. On imagine facilement les débats qui peuvent avoir lieu à l'Académie Française.

En ce qui concerne Google, tout le monde peut mettre un contenu en ligne. C'est même là la richesse du Web et ce qui a permis l'avènement d'initiatives collectives importantes. La publication en ligne est un vecteur de communication. En créant un contenu, on fait exister un sujet dans l'index du moteur de recherche devenu leader pour l'édition d'informations. Sans frontière et sans limite. Mais cette possibilité de publier sans passage obligatoire par une validation académique crée aussi une complexité. : la question de la légitimité est importante.

Tandis que les ouvrages dans une bibliothèque ont été validés à un moment donné (par un éditeur, un bibliothécaire, etc.), les contenus en ligne et indexés par Google sont par essence sans intermédiaire. En effet, pour Wikipédia ou le Larousse, ce sont des personnes qui valident collégialement le fait d’obtenir la publication d’une définition. Google propose quant à lui un classement mécanique et algorithmique. Il existe bien des moments où une intervention manuelle est faite, mais ce n'est pas toujours bon signe (#pénalité).

Si l'on opère un parallèle avec la Bibliothèque Nationale de France, cette dernière dispose de son propre robot, intitulé « robots moissonneurs ». Il a même un prénom : Heritrix. Même si WebArchives paraît similaire, les méthodes de WebArchives pour sa Wayback Machine sont sans doute différents. Les enjeux et les objectifs sont différents également. En ce qui me concerne, je vois plutôt la WayBack Machine comme étant une forme de versioning historique du Web, tandis que la BnF se donne un rôle de collecte. C’est même une responsabilité.

Le Web est comme le père Noël, il n'oublie pas

Gardons en tête que la procédure pour faire valoir son droit à l'oubli consiste à faire désindexer une information, et non pas la supprimer. Ce n'est pas une suppression totale, même si l'on admet largement qu'un contenu auquel on ne peut pas accéder est difficilement accessible. C'est la différence entre le fait de détruire une maison et celui d’effacer les mots sur les panneaux qui permettent de s'y rendre. Si en plus vous détruisez les routes en supprimant les liens vers cette page, ce sera encore plus compliqué d'accéder au contenu en question.

La pertinence ou légitimité

Entre Google E-A-T et les core updates, il est toujours question de la pertinence. Ce qui est indexé et classé dans un moteur de recherche est a priori voué à perdurer dans le temps. Et si nous partions du principe que nous produisions quotidiennement les archives de demain ? Que laisser à la postérité ? Cela pose aussi les question de la propriété et de la pollution.

Aussi est-il intéressant de se souvenir que la notion de légitimité est relative. Ce contenu a priori sans importance pour vous, inutile et même ridicule, est peut-être tout l'inverse pour une autre personne. On pourrait se dire que les conversations sur Twitter - par exemple - sont bonnes à jeter. Pourtant la suppression du compte personnel de Donald Trump pose aussi la question des archives des déclarations publiques d'un ancien Président des États-Unis. Certes cette suppression est justifiable pour de nombreuses raisons, mais ne devrions-nous pas accéder d'une manière ou d'une autre aux paroles d'une personnes qui a influencé l'histoire d'un pays si ce n'est du monde ? Aussi le murmure de Twitter est-il une manne pour sonder l'opinion publique, autrement des outils tels que Visibrain n'existeraient pas.

Avant de vouloir tout supprimer et juger de la légitimité de l'existence de certaines informations en ligne, attendons voir. Nous pourrions être surpris par les contenus qui nous survivrons.

___________

Cet article est une reprise de mes notes pour la conférence que j'ai donné lors du Meetup Google Search Central à Paris (13 Octobre 2022). Ce Meetup organisé par l'équipe Google Search Liaison (Zürich) eut lieu le 13 novembre 2022 dans les locaux de Google à Paris, rue de Londres. Je remercie chaleureusement Martin Splitt, Myriam Jessier et Aymen Loukil pour l'organisation de cette rencontre. Merci également à Rebecca Berbel pour avoir été une animatrice parfaite. Et bien entendu, merci à tous les participants !

Être indexé pour exister : entre pertinence, légitimité, et archives du Web