L'utilisation par Google des filtres Bloom explique les données filtrées plus élevées dans la console de recherche

L'utilisation par Google des filtres Bloom explique les données filtrées plus élevées dans la console de recherche

06 septembre 2023

Dans le dernier partie de la session de questions-réponses mensuelle de Google pendant les heures de bureau, une question a été posée concernant le volume plus élevé de données filtrées par rapport aux données globales dans Google Search Console.

partie

La question a suscité une réponse détaillée de Gary Illyes, membre de l'équipe Google Search Relations, qui a mis en lumière l'utilisation de Google. des filtres Bloom.

Données disproportionnées dans la Search Console

La question était : "Pourquoi les données filtrées sont-elles plus élevées que les données globales sur la Search Console ? Cela n'a aucun sens."< /p>

En apparence, cela peut sembler quelque peu contradictoire.

On s'attend à ce que les données globales soient plus complètes et, par conséquent, plus étendues que n'importe quel sous-ensemble filtré.

Cependant, ce n'est pas ce que vivent les utilisateurs. Que se passe-t-il ici ?

Search Console etamp; Filtres Bloom

Illyes commence sa réponse :

"La réponse courte est que nous utilisons beaucoup ce qu'on appelle les filtres Bloom parce que nous devons traiter beaucoup de données, et Les filtres Bloom peuvent nous faire gagner beaucoup de temps et de stockage.

Lorsque vous gérez un grand nombre d'éléments dans un ensemble, et je veux dire des milliards d'éléments, voire des milliards, rechercher des éléments rapidement devient très difficile. C'est là que les filtres Bloom sont utiles. »

"La réponse courte est que nous utilisons beaucoup ce qu'on appelle les filtres Bloom parce que nous devons traiter beaucoup de données, et Les filtres Bloom peuvent nous faire gagner beaucoup de temps et de stockage.

Lorsque vous gérez un grand nombre d'éléments dans un ensemble, et je veux dire des milliards d'éléments, voire des milliards, rechercher des éléments rapidement devient très difficile. C'est là que les filtres Bloom sont utiles. »

Bloom Les filtres accélèrent les recherches dans le Big Data en consultant d'abord une collection distincte de données hachées ou codées.

Cela permet une analyse plus rapide mais moins précise, explique Illyes :

« Puisque vous Si vous recherchez d'abord les hachages, c'est assez rapide, mais le hachage s'accompagne parfois d'une perte de données, intentionnelle ou non, et ces données manquantes sont ce que vous rencontrez : moins de données à parcourir signifie des prédictions plus précises quant à savoir si quelque chose existe dans le ensemble principal ou non, et ces données manquantes sont ce que vous rencontrez : moins de données à parcourir signifie des prédictions plus précises quant à savoir si quelque chose existe dans l'ensemble principal ou non.

Fondamentalement, les filtres Bloom accélèrent les recherches. en prédisant si quelque chose existe dans un ensemble de données, mais au détriment de la précision, et plus l'ensemble de données est petit, plus les prédictions sont précises. »

« Puisque vous Si vous recherchez d'abord les hachages, c'est assez rapide, mais le hachage s'accompagne parfois d'une perte de données, intentionnelle ou non, et ces données manquantes sont ce que vous rencontrez : moins de données à parcourir signifie des prédictions plus précises quant à savoir si quelque chose existe dans le ensemble principal ou non, et ces données manquantes sont ce que vous rencontrez : moins de données à parcourir signifie des prédictions plus précises quant à savoir si quelque chose existe dans l'ensemble principal ou non.

Fondamentalement, les filtres Bloom accélèrent les recherches. en prédisant si quelque chose existe dans un ensemble de données, mais au détriment de la précision, et plus l'ensemble de données est petit, plus les prédictions sont précises. »

Vitesse plutôt que précision : un compromis délibéré

L'explication d'Illyes révèle un compromis délibéré : vitesse et l'efficacité plutôt que la précision parfaite.

Cette approche peut surprendre, mais il s'agit d'une stratégie nécessaire face à la vaste échelle de données que Google traite quotidiennement.

En résumé

Les filtres Bloom permettent à Google de travailler avec des milliards de points de données, mais ils sacrifient une certaine précision. .

Ce compromis est intentionnel. Google se soucie plus de la vitesse que de la précision à 100 %. Les inexactitudes mineures valent la peine à Google d'analyser les données rapidement.

Donc, ce n'est pas une erreur de voir que les données filtrées sont supérieures aux données globales. C'est ainsi que fonctionnent les filtres Bloom.


Image en vedette : Tetiana Yurchenko/Shutterstock

Image en vedette : Tetiana Yurchenko/Shutterstock