Pourquoi Google Gemini a-t-il « divulgué » des données de discussion ?

Pourquoi Google Gemini a-t-il « divulgué » des données de discussion ?

13 février 2024

Il n'a fallu que vingt-quatre heures après la publication publique de Gemini de Google pour que quelqu'un remarque que les discussions étaient affichées publiquement dans les résultats de recherche de Google. Google a rapidement réagi à ce qui semblait être une fuite. La raison pour laquelle cela s’est produit est assez surprenante et pas aussi sinistre qu’il y paraît à première vue.

@shemiadhikarath a tweeté :

"Quelques heures après le lancement de @Google Gemini, des moteurs de recherche comme Bing ont indexé les conversations publiques de Gemini."

Ils ont publié une capture d'écran de la recherche sur le site gemini.google.com/share/

Mais si vous regardez la capture d'écran, vous verrez qu'il y a un message disant : « Nous aimerions vous montrer une description ici mais le site ne nous le permet pas ».

Tôt le matin du mardi 13 février, les discussions Google Gemini ont commencé à disparaître des résultats de recherche Google, Google n'affichant que trois résultats de recherche. Dans l’après-midi, le nombre de discussions Gemini divulguées apparaissant dans les résultats de recherche était tombé à un seul résultat de recherche.

Capture d'écran des résultats de recherche Google pour les pages indexées à partir du sous-domaine de discussion Google Gemini

Comment les pages de discussion Gemini ont-elles été créées ?

Gemini offre un moyen de créer un lien vers une version visible publiquement d'une discussion privée.

Google ne crée pas automatiquement de pages Web à partir de discussions privées. Les utilisateurs créent les pages de discussion via un lien au bas de chaque discussion.

Capture d'écran de la façon de créer une page de discussion partagée

Capture d'écran montrant comment créer une page Web publique d'un chat Google Gemini privé

Pourquoi les pages de discussion Gemini ont-elles été indexées ?

La raison évidente pour laquelle les pages de discussion ont été explorées et indexées est que Google a oublié de mettre un fichier robots.txt à la racine du sous-domaine Gemini (gemini.google.com).

Un fichier robots.txt est un document permettant de contrôler l'activité des robots sur les sites Web. Un éditeur peut bloquer des robots d'exploration spécifiques en utilisant des commandes standardisées dans le protocole Robots.txt.

J'ai vérifié le fichier robots.txt à 4h19 le 13 février et j'ai vu qu'il y en avait un :

Fichier robots.txt de Google Gemini

J'ai ensuite vérifié Internet Archive pour voir depuis combien de temps le fichier robots.txt était en place et j'ai découvert qu'il était là depuis au moins le 8 février, jour de l'annonce des applications Gemini.

Capture d'écran des archives Internet

Capture d'écran des robots Google Gemini. txt d'Internet Archive montrant qu'il était là le 8 février 2024.

Cela signifie que la raison évidente pour laquelle les pages de discussion ont été explorées n'est pas la bonne raison, c'est simplement la raison la plus évidente.

Bien que le sous-domaine Google Gemini ait un fichier robots.txt qui bloque les robots d'exploration Web de Bing et de Google, comment ont-ils fini par explorer ces pages et les indexer ?

Lire : 6 problèmes courants de Robots.txt et comment les résoudre

Pages de discussion privées découvertes et indexées de deux manières

  • Il peut y avoir un lien public quelque part.
  • Il est moins probable, mais peut-être possible, qu'ils aient été découverts grâce à l'historique de navigation lié aux cookies.

Il est plus probable qu'il existe des liens publics.

J'ai interrogé Bill Hartzer ( @bhartzer ) à ce sujet et il a découvert un lien public vers l'une des pages indexées :

Lien public vers une page de discussion partagée Google Gemini

Nous savons maintenant qu'il est très probable qu'un lien public ait provoqué l'exploration et l'indexation de ces pages Gemini Chat.

Bill Hartzer a fait cette observation :

« Même si l'URL Gemini est bloquée dans le fichier robots.txt, il existe un lien vers l'URL Gemini dans un commentaire de blog, de sorte que l'URL Gemini soit indexée.

Cela montre simplement que Google indexera toujours les URL dont l'exploration est bloquée dans le fichier robots.txt.

Si Google voulait vraiment s'assurer que l'URL Gemini n'est pas indexée, il AUTORISERait l'exploration du fichier robots.txt et ajouterait une balise méta noindex sur les pages. Peut-être que Google devrait suivre ses propres conseils ici ? »

Pourquoi les pages de discussion ont-elles commencé à disparaître des résultats de recherche ?

Mais s’il existe un lien public, pourquoi Google a-t-il commencé à supprimer complètement les pages de discussion ? Google a-t-il créé une règle interne permettant au robot d'exploration de recherche d'exclure les pages Web du dossier /share/ de l'index de recherche, même si elles sont liées publiquement ?

Aperçu de la manière dont Bing et la recherche Google indexent le contenu

Voici maintenant la partie vraiment intéressante pour tous les geeks de la recherche intéressés par la manière dont Google et Bing indexent le contenu.

L'index de recherche Microsoft Bing a répondu au contenu Gemini différemment de la recherche Google. Alors que Google affichait encore trois résultats de recherche au petit matin du 13 février, Bing n'affichait qu'un seul résultat du sous-domaine. Il y avait une qualité apparemment aléatoire dans ce qui était indexé et dans quelle quantité.

Pourquoi les pages de discussion Gemini ont-elles fui ?

Voici les faits connus :

  • Google avait un robots.txt en place depuis le 8 février.
  • Google et Bing ont indexé les pages du sous-domaine gemini.google.com.
  • Google et Bing ont peut-être découvert des liens vers les chats et les ont ensuite indexés.
  • Les moteurs de recherche ont indexé le contenu indépendamment du fichier robots.txt, puis ont commencé à le supprimer.

Cela nous ramène à la question de savoir pourquoi ces pages ont commencé à disparaître des résultats de recherche de Google et de Bing. Je suppose que les pages de discussion Google Gemini sont des pages Web de mauvaise qualité qui ne valent pas la peine d'être affichées pour des recherches essentiellement à longue traîne (site : gemini.google.com/share/). Il n’y a vraiment aucune raison utile de faire apparaître ces pages dans les résultats de recherche.

Le contenu bloqué par Robots.txt peut toujours être découvert, exploré et se retrouver dans l'index de recherche et si les pages sont utiles, elles peuvent également être classées, à moins qu'elles ne soient pas utiles. Je pense que cela peut être le cas.