Comment utiliser Google Sheets pour le Web Scraping avec l'IA

Comment utiliser Google Sheets pour le Web Scraping avec l'IA

03 avril 2024

L'extraction de données à partir de pages Web est une tâche relativement avancée qui, jusqu'à récemment, nécessitait un certain degré de compétences techniques. L’idée de plonger dans le code ou les scripts pour l’extraction de données semblait écrasante pour beaucoup, moi y compris.

Le grattage de données peut alimenter de nombreuses tâches de référencement, telles que l'audit, l'analyse des concurrents et l'examen du site Web et de la structure des données.

Google Sheets propose des solutions simples pour vous aider.

L'une de ces solutions est la fonction IMPORTXML qui permet aux utilisateurs de récupérer les données d'une page Web en utilisant seulement quelques paramètres. Il rend l’extraction de données accessible à un public plus large, en particulier à ceux qui ne connaissent pas bien les langages de programmation.

Bien que cette fonction soit impressionnante, la véritable avancée est venue de l’adoption et de l’intégration de l’IA générative dans le mix.

Dans ce guide, nous allons vous montrer comment utiliser Google Sheets et l'IA, en particulier ChatGPT, pour le web scraping sans avoir besoin de compétences avancées en codage.

Les outils : IA et chatbots

Nous connaissons tous désormais l’IA, ChatGPT et les chatbots similaires.

En fait, beaucoup d’entre nous utilisent des solutions comme ChatGPT pour écrire notre propre code, scripts et programmes sans ou avec des connaissances en programmation très limitées.

C'est aussi simple que de fournir des instructions détaillées sous forme d'invites et de travailler avec le chatbot pour créer des outils qui, jusqu'à récemment, nous pensions être bien au-dessus de nous.

Mais surtout, ce sont des outils qui changent profondément notre façon d’aborder notre travail au quotidien.

Par exemple, si nous posons à ChatGPT la question suivante : « Qu'est-ce que la fonction IMPORTXML et comment puis-je l'utiliser dans Google Sheets pour récupérer le titre d'une page Web HTML ? Fournissez le code nécessaire pour faire cela dans Google Sheets », la réponse est extrêmement précise. En quelques secondes, notre formule est prête à être utilisée dans Google Sheets.

Mais pour être honnête, c’était une tâche très basique et simple que nous aurions facilement pu réaliser sans ChatGPT.

La tâche

Alors, comment cela fonctionne-t-il si l’on souhaite extraire des données un peu moins standards par rapport à un titre ou une description de page ?

Par exemple, comment cela fonctionne-t-il si nous voulons extraire les données suivantes de la page d'accueil PPC du Search Engine Journal ?

Répertoriez tous les articles présentés, leurs auteurs, les URL des liens et la description de l'article pour les colonnes répertoriées sur https://www.searchenginejournal.com/category/paid-media/pay-per-click/.

Pouvons-nous faire cela directement avec ChatGPT ?

Exécuter avec ChatGPT

Lors de la création des invites, il a fallu quelques tentatives pour fournir des instructions suffisamment détaillées pour que le chatbot comprenne pleinement l'objectif de la tâche et renvoie de bons résultats.

Dans de nombreux cas, on avait l’impression que l’IA était sous pression pour fournir des résultats rapides malgré leur précision.

Mais laissez-moi vous expliquer.

La tâche consistait à analyser la page et à répertorier tous les articles présentés, leurs auteurs, les URL des liens et la description de chacun des 30 articles répertoriés sur la page. Compilez ensuite les données dans un tableau et enfin exportez-les dans un fichier CSV.

Simple, non ?

Au début, ChatGPT n'a renvoyé qu'un échantillon de sept articles et uniquement leurs titres et URL ; après une invite retravaillée, il a réussi à répertorier et exporter les 30 articles et leurs liens.

Maintenant, c'était bien. Ainsi, pour terminer la tâche, il nous suffisait d'ajouter les auteurs et les descriptions des articles.

Mais c’est ici que le robot a trébuché et n’a pas été en mesure de fournir une description précise de chaque article, même si nous lui avons fourni des exemples de l’élément de page qu’il devait trouver et copier.

ChatGPT a continué à ignorer les instructions et à fournir à maintes reprises ses propres descriptions d'articles.

ChatGPT a même échoué lorsque nous avons essayé une approche différente et téléchargé et téléchargé une copie de la page HTML.

Extrait ChatGPT Capture d'écran de ChatGPT, février 2024

Cette fois, il a été en mesure de fournir des données précises pour sept articles, mais n'a pas pu aller au-delà. Le problème signalé :

«… la structure et le contenu de la page présentent des défis importants pour une extraction complète des données en une seule session.

La page est assez vaste et complexe, et il n'est pas possible d'extraire la totalité des 30 articles dans le format d'interaction actuel.

ChatGPT extrait de 30 articles Capture d'écran de ChatGPT, février 2024

ChatGPT + Google Sheets

Revenons donc à IMPORTXML et Google Sheets.

Cette fois, demander à ChatGPT de fournir les formules pour chaque champ a été un jeu d'enfant.

Instructions d'extraction de ChatGPT Capture d'écran de ChatGPT, février 2024

Voici quelques-unes des formules, suggérées par le chatbot, que vous pouvez facilement essayer vous-même dans Google Sheets pour extraire :

Titre

 =IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2 ]/h2/a")

Nom de l'auteur

 =IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2 ]/p[1]/a")

Lien URL

 =IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2 ]/h2/a/@href")

Description

 =IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2 ]/p[2]")

En un rien de temps, nous avons pu extraire les données dans la feuille de calcul.

Feuilles Google Capture d'écran de Google Sheets, février 2024

De plus, en utilisant des formules imbriquées simples, nous pouvons extraire rapidement les données de plusieurs pages en même temps.

Dans l'exemple ci-dessous, j'ai pu extraire les mêmes données liées à chaque article (titre, auteur, lien URL et description) pour les 10 premières pages de la section PPC.

Le résultat est un total de 300 articles grattés en moins d’une minute !

Résultats d'extraction de Google Sheets Capture d'écran de Google Sheets, février 2024

Comparer les deux

Alors, comment se comparent ChatGPT et ChatGPT + Google Sheets IMPORTXML ?

D'après mon expérience, je n'ai pas trouvé de moyen simple et rapide d'utiliser ChatGPT pour récupérer les données que je recherchais – attention, cela ne veut pas dire que ce n'est pas possible, et il peut y avoir plusieurs façons de le faire, mais Je n'en ai trouvé aucun.

Ce qui a fonctionné pour moi, c'est une combinaison de différents outils, et cela m'a très bien servi pour atteindre mon objectif.

ChatGPT a été extrêmement utile pour écrire les formules IMPORTXML que je devais utiliser dans Google Sheets, et ces formules ont fait le reste.

Un avantage supplémentaire de l'option ChatGPT + Google Sheets est que vous pouvez simplement utiliser la version gratuite 3.5 de ChatGPT et obtenir l'outil pour créer vos formules IMPORTXML, au lieu d'avoir la version 4 pour numériser la page et extraire les données.

Clé à retenir

Cela met en évidence un aspect essentiel de la façon dont l’IA a transformé notre façon de penser et de travailler.

Le meilleur outil pour ce travail n'utilise pas simplement l'IA, Google Sheets ou tout autre logiciel spécifique, mais plutôt une combinaison d'outils et de compétences.

C'est dans cette approche intégrée que nous développons des flux de travail efficaces et efficients, améliorant ainsi notre productivité globale.

Davantage de ressources:

  • Essayez ces outils et méthodes pour exporter les résultats de recherche Google vers Excel
  • SEO pour les débutants : une introduction aux bases du référencement
  • Tendances PPC 2024

Image en vedette : Génération visuelle/Shutterstock