Le rapport Webspam de Google explique le rôle de SpamBrain

Le rapport Webspam de Google explique le rôle de SpamBrain

12 avril 2023

Le rapport annuel sur le spam Web de Google couvrant 2022 a mis en évidence toutes les façons dont leur système anti-spam SpamBrain est devenu plus apte à détecter plusieurs formes de spam. Bien que le rapport porte principalement sur le nombre de spams supplémentaires qu'ils ont interceptés par rapport à l'année précédente, les informations sur le fonctionnement de SpamBrain semblaient tout aussi importantes.

Google SpamBrain Platform

SpamBrain est le nom que Google a donné à son système d'apprentissage automatique que Google appelle une plate-forme à partir de laquelle lancer des algorithmes qui détectent plusieurs formes de contenu indésirable.

L'apprentissage automatique est une forme d'intelligence artificielle qui utilise les données pour apprendre à devenir de plus en plus compétent dans la tâche pour laquelle il est conçu.

On ne sait pas grand-chose sur SpamBrain est autre qu'une plate-forme d'apprentissage automatique et qu'il est "central" dans les initiatives de Google pour empêcher le spam de se classer.

Le rapport Webspam de Google note ceci à propos de SpamBrain :

Le rapport Webspam de Google note ceci à propos de SpamBrain :

"Nous avons également amélioré SpamBrain en tant que plate-forme robuste et polyvalente, en lançant plusieurs solutions pour améliorer notre couverture des différents types d'abus."

"Nous avons également amélioré SpamBrain en tant que plate-forme robuste et polyvalente, en lançant plusieurs solutions pour améliorer notre couverture des différents types d'abus."

Améliorations de SpamBrain

Le rapport Webspam a noté que les améliorations apportées au système ont permis de détecter 500 % de sites de spam en plus que l'année précédente.

Une formation supplémentaire a multiplié par dix la capacité de SpamBrain à identifier les sites Web piratés.

Détection des liens indésirables

Le rapport indique qu'une formation spéciale sur les liens indésirables a permis de détecter cinquante fois plus de sites créant du spam de lien par rapport à l'année précédente, citant la capacité d'apprentissage de SpamBrain comme clé de son succès.

« Grâce à la capacité d'apprentissage de SpamBrain, nous avons détecté 50 fois plus de sites de spam de lien par rapport à la mise à jour précédente du spam de lien. »

« Grâce à la capacité d'apprentissage de SpamBrain, nous avons détecté 50 fois plus de sites de spam de lien par rapport à la mise à jour précédente du spam de lien. »

Gestionnaire d'indexation

Un fait intéressant à propos de SpamBrain est la façon dont il identifie le spam au moment de l'exploration.

Si une page explorée est détectée comme spam, elle est immédiatement bloquée, l'empêchant d'entrer dans la recherche de Google indexer et éviter que les ressources ne soient gaspillées en explorant des pages Web indésirables.

Le blocage du spam au moment de l'exploration est une fonctionnalité qui a été annoncée en 2021, qui a noté que l'indexation n'est pas seulement bloquée lorsque le spam est exploré, mais également lorsqu'il tente de se faufiler via la console de recherche et les sitemaps.

Ils ont écrit en 2021 :

Ils ont écrit en 2021 :

"... nous avons des systèmes qui peuvent détecter le spam lorsque nous explorons des pages ou tout autre contenu. L'exploration se produit lorsque nos systèmes automatiques visitent le contenu et le considèrent pour l'inclure dans l'index que nous utilisons pour fournir des résultats de recherche. Certains contenus détectés comme spam ne sont pas ajoutés à l'index.

Ces systèmes fonctionnent également pour le contenu que nous découvrons via les sitemaps et la Search Console.

Par exemple, la Search Console dispose d'un index d'indexation des requêtes. fonctionnalité afin que les créateurs puissent nous informer des nouvelles pages qui devraient être ajoutées rapidement. Nous avons observé des spammeurs pirater des sites vulnérables, se faire passer pour les propriétaires de ces sites, se vérifier dans la Search Console et utiliser l'outil pour demander à Google d'explorer et d'indexer les nombreuses pages de spam qu'ils ont créées.

Utilisation de l'IA , nous avons pu identifier les vérifications suspectes et empêcher ainsi les URL de spam d'entrer dans notre index."

"... nous avons des systèmes qui peuvent détecter le spam lorsque nous explorons des pages ou tout autre contenu. L'exploration se produit lorsque nos systèmes automatiques visitent le contenu et le considèrent pour l'inclure dans l'index que nous utilisons pour fournir des résultats de recherche. Certains contenus détectés comme spam ne sont pas ajoutés à l'index.

Ces systèmes fonctionnent également pour le contenu que nous découvrons via les sitemaps et la Search Console.

Par exemple, la Search Console dispose d'un index d'indexation des requêtes. fonctionnalité afin que les créateurs puissent nous informer des nouvelles pages qui devraient être ajoutées rapidement. Nous avons observé des spammeurs pirater des sites vulnérables, se faire passer pour les propriétaires de ces sites, se vérifier dans la Search Console et utiliser l'outil pour demander à Google d'explorer et d'indexer les nombreuses pages de spam qu'ils ont créées.

Utilisation de l'IA , nous avons pu identifier les vérifications suspectes et empêcher ainsi les URL de spam d'entrer dans notre index."

Il est donc juste de dire que l'une des nombreuses fonctions de SpamBrain est d'agir comme un gardien, en bloquant le spam avant qu'il n'ait une chance de figurer dans l'index de Google.

La protection contre les escroqueries est désormais multilingue

Une nouveauté pour SpamBrain est que le système d'identification des escroqueries est désormais multilingue, ce qui réduit les clics sur les sites frauduleux de 50 % par rapport à l'année précédente.

Quoi À propos du contenu indésirable ?

Le rapport de cette année s'est concentré sur la détection des liens indésirables, l'identification des sites piratés et l'amélioration de la détection des spams au moment de l'exploration.

Ce qu'il n'a pas mentionné était lié à identifier le contenu spam.

Est-ce parce que le contenu est géré par Helpful Algorithme de contenu et non SpamBrain ?

Lire le rapport sur le spam Web de Google :

Lire le rapport sur le spam Web de Google :

Comment nous avons combattu le spam sur la recherche Google en 2022

Comment nous avons combattu le spam sur la recherche Google en 2022

Image sélectionnée par Shutterstock/Asier Romero

Image sélectionnée par Shutterstock/Asier Romero