Google a dévoilé Gemini, son modèle d'intelligence artificielle (IA) le plus avancé et le plus performant, doté de capacités multimodales avancées.
Ce modèle révolutionnaire représente un pas en avant dans la technologie de l'IA, offrant des performances de pointe par rapport aux grands modèles de langage (LLM) existants.
Sundar Pichai, PDG de Google et d'Alphabet, a souligné que l'IA est en train de façonner un profond changement technologique, dépassant potentiellement l'impact des révolutions mobile et Web.
Il a souligné l’importance de l’IA pour stimuler l’innovation et le progrès économique, en améliorant les connaissances humaines, la créativité et la productivité.
Qu’est-ce que Google Gemini ?
Développé par Google DeepMind, dirigé par le PDG et co-fondateur Demis Hassabis, Gemini témoigne de l'engagement continu de Google à être une entreprise axée sur l'IA.
Je suis très heureux de partager notre travail sur Gemini aujourd'hui ! Gemini est une famille de modèles multimodaux qui démontrent de très fortes capacités dans les domaines de l'image, de l'audio, de la vidéo et du texte. Notre modèle le plus performant, Gemini Ultra, fait progresser l'état de l'art dans 30 des 32 benchmarks,… pic.twitter.com/sQfxBy9tpT
Le modèle présente un éventail impressionnant de capacités, notamment dans sa compréhension multimodale, une fonctionnalité qui lui permet de traiter et de combiner de manière transparente différents types d'informations, notamment le texte, le code, l'audio, l'image et la vidéo.
Modèles Google Gemini : Ultra, Pro et Nano
Gemini 1.0, la première version du modèle, se décline en trois variantes : Gemini Ultra, Gemini Pro et Gemini Nano.
Capture d'écran de DeepMind, décembre 2023
Chacun est optimisé pour des tâches spécifiques, Gemini Ultra étant conçu pour des tâches très complexes, Gemini Pro pour un large éventail de tâches et Gemini Nano pour des tâches efficaces sur l'appareil.
Capture d'écran de Google, décembre 2023
Performances de Google Gemini : références de texte
Les performances du modèle sont exceptionnelles, surpassant les experts humains en compréhension massive du langage multitâche (MMLU) avec un score de 90,0 %.
De plus, Gemini Ultra surpasse les modèles existants dans 30 des 32 références académiques largement utilisées dans la recherche sur les grands modèles de langage.
Capture d'écran de DeepMind, décembre 2023
Capacités et performances multimodales de Google Gemini
L'approche innovante de Gemini en matière de multimodalité le distingue des modèles précédents.
Les modèles multimodaux traditionnels sont souvent limités par leur conception, qui implique la formation de composants séparés pour différentes modalités, puis leur assemblage.
En revanche, Gemini a été conçu dès le départ pour être nativement multimodal, ce qui lui permet de comprendre et de raisonner beaucoup plus efficacement sur diverses entrées.
Capture d'écran de DeepMind, décembre 2023
Cette capacité positionne Gemini comme un outil puissant dans des domaines allant de la science à la finance, où il peut découvrir des informations à partir de grandes quantités de données et fournir un raisonnement avancé dans des sujets complexes comme les mathématiques et la physique.
Des exemples du rapport Google DeepMind sur Google Gemin présentent les capacités multimodales de Gemini, telles que la génération d'images.
Capture d'écran de Google, décembre 2023
Dans cette vidéo, Google teste Gemini avec son Emoji Kitchen.
Il peut également gérer du texte, des images et de l'audio, comme indiqué ci-dessous.
Capture d'écran de Google, décembre 2023
Cette vidéo de Google offre plus d'informations sur la capacité de Gemini à traiter l'audio brut.
Benchmarks Gemini par rapport aux concurrents externes
Comment Google Gemini se compare-t-il aux meilleurs modèles d'IA d'OpenAI, Inflection, Anthropic, Meta et xAI ? Ce qui suit montre les performances de Gemini Ultra et Pro sur des tests de texte par rapport à ses concurrents.
Capture d'écran de Google, décembre 2023
Les Gémeaux excellent dans le codage
En plus de ses capacités multimodales, Gemini excelle dans les tâches de codage. Sa capacité à comprendre, expliquer et générer du code de haute qualité dans plusieurs langages de programmation le positionne comme un modèle leader en matière de codage.
Capture d'écran de Google, décembre 2023
Il constitue également la base de systèmes de codage plus avancés, comme AlphaCode 2, améliorant considérablement les problèmes de programmation concurrents.
L'efficacité et l'évolutivité du modèle sont renforcées par les unités de traitement Tensor (TPU) v4 et v5e conçues en interne par Google, ce qui en fait le modèle le plus fiable et le plus évolutif à former et à servir.
Google expérimente Gemini pour l'expérience générative de recherche (SGE)
Nous commençons déjà à expérimenter Gemini dans la recherche, qui rend notre expérience générative de recherche (SGE) plus rapide pour les utilisateurs, avec une réduction de 40 % de la latence en anglais aux États-Unis, ainsi que des améliorations de la qualité.
Google Bard désormais propulsé par Gemini Pro
Google a également annoncé une mise à niveau significative de Bard, intégrant Gemini Pro pour améliorer les capacités de l'IA.
Capture d'écran de Google Bard, décembre 2023
Cette mise à niveau constitue la plus grande amélioration reçue par Bard à ce jour.
Gemini Pro a été affiné au sein de Bard pour améliorer considérablement ses performances en matière de compréhension et de synthèse des informations, de raisonnement, de codage et de planification.
Capture d'écran de Google Bard, décembre 2023
Les utilisateurs peuvent désormais découvrir Bard optimisé par Gemini Pro pour les interactions textuelles, et il est prévu d'étendre prochainement la prise en charge à d'autres modalités.
Propulsé par Gemini Pro, @Google Bard partage les meilleures ressources gratuites pour apprendre le référencement. 📑 pic.twitter.com/HwKqN9m7A7
Initialement disponible en anglais dans plus de 170 pays et territoires, cette mise à niveau s'étendra bientôt à d'autres langues et régions, dont l'Europe.
Comprendre l'intention avec Gemini pour une UX personnalisée
Cette vidéo démontre la capacité de Gemini à comprendre l'intention des utilisateurs et à créer des expériences utilisateur personnalisées.
Cela commence par comprendre l'objectif de l'utilisateur et collecter des informations pertinentes avant de raisonner et de créer une interface d'exploration sur mesure.
L'utilisateur peut interagir avec l'interface et recevoir des informations supplémentaires en fonction de ses besoins, démontrant la capacité de Gemini à s'adapter et à offrir une expérience personnalisée.
Invite multimodale avec Gemini
Sur le blog Google for Developers, vous trouverez des exemples d'invites multimodales avec Gemini en action.
La promotion multimodale est une méthode d'interaction avec des modèles d'IA qui implique de fournir des entrées sous plusieurs formes, telles que du texte et des images, et de recevoir des réponses prédictives de l'IA.
Cette méthode d'invite combine des invites de texte et d'image pour aborder diverses tâches, de la résolution d'énigmes logiques à la compréhension de séquences d'images.
Cela aide également les Gémeaux à devenir compétents en reconnaissance de formes et à améliorer leurs capacités de raisonnement.
Dans des domaines tels que la conception de jeux ou la génération de requêtes musicales, la promotion multimodale aide à écrire du code et à produire des réponses sous forme de texte et d'images.
L'intégration avec d'autres outils et applications montre un potentiel d'applications pratiques et professionnelles, telles que la conception, le codage et la création de contenu.
Google Pixel 8 Pro : le premier smartphone avec IA intégrée alimenté par Gemini Nano
La dernière mise à jour de Google introduit Gemini Nano, un modèle d'IA avancé, désormais intégré au smartphone Pixel 8 Pro.
Cette mise à jour fait du Pixel 8 Pro le premier téléphone conçu pour l'IA avec Gemini Nano, tirant parti de la technologie Google Tensor G3.
Les fonctionnalités clés incluent « Résumer dans l'enregistreur » pour le résumé des enregistrements audio sur l'appareil et « Réponse intelligente dans Gboard » pour les réponses textuelles contextuelles. Ces fonctionnalités améliorent la confidentialité et les fonctionnalités des utilisateurs sans avoir besoin d’une connexion réseau.
De plus, Google a annoncé des améliorations à venir pour l'expérience Assistant with Bard dans la gamme Pixel, élargissant ainsi les capacités d'IA.
La mise à jour comprend également des améliorations basées sur l'IA en matière de photographie et de vidéo, telles que la stabilisation vidéo améliorée, la vidéo Night Sight et Photo Unblur pour des images d'animaux plus claires.
Pour la productivité, il existe de nouveaux outils tels que l'aperçu sur double écran sur Pixel Fold, des appels vidéo améliorés utilisant les téléphones Pixel comme webcams et le nettoyage de numérisation de documents.
Google Password Manager prend désormais en charge les mots de passe et les appareils Pixel bénéficient de nouvelles fonctionnalités de sécurité telles que le mode réparation. La Pixel Watch introduit des fonctionnalités pratiques de déverrouillage du téléphone et de filtrage des appels, tandis que la Pixel Tablet offre Clear Calling et une prise en charge audio spatiale.
Google étend également la prise en charge linguistique dans son application Recorder et étend les fonctionnalités Direct My Call et Hold for Me à davantage de régions et d'appareils.
Développement responsable de l’IA
Google a donné la priorité au développement responsable de l'IA, en garantissant des évaluations complètes de la sécurité de Gemini en termes de biais et de toxicité.
L'entreprise collabore avec divers experts et partenaires externes pour tester rigoureusement le modèle et gérer les risques potentiels.
Comment obtenir des Gémeaux
Gemini 1.0 est progressivement intégré à divers produits et plates-formes Google et sera bientôt accessible aux développeurs et aux entreprises via Google AI Studio et Google Cloud Vertex AI.
Dans le cadre de l'engagement de Google à faire progresser l'IA de manière responsable, Gemini Ultra sera soumis à des contrôles de confiance et de sécurité approfondis avant sa sortie à plus grande échelle.
L' introduction de Gemini par Google marque une étape importante dans le développement de l'IA.
Ses capacités avancées, allant du raisonnement multimodal sophistiqué au codage efficace, marquent le début d’une nouvelle ère dans l’IA, ouvrant des possibilités remarquables d’innovation dans de multiples domaines.