OpenAI a réussi à détourner l'attention de Google dans les semaines précédant le plus grand événement Google de l'année (Google I/O). Lorsque la grande annonce est arrivée là-bas, tout ce qu'ils avaient à montrer était un modèle de langage légèrement meilleur que le précédent avec la partie « magique » même pas en phase de test Alpha.
OpenAI a peut-être donné aux utilisateurs le sentiment d'être une maman recevant un aspirateur pour la fête des mères, mais il a sûrement réussi à minimiser l'attention de la presse pour l'événement important de Google.
La lettre O
Le premier indice qu'il y a au moins un petit trolling est le nom du nouveau modèle GPT, 4 « o » avec la lettre « o » comme dans le nom de l'événement de Google, I/O.
OpenAI dit que la lettre O signifie Omni, ce qui signifie tout, mais il semble bien qu'il y ait un sous-texte à ce choix.
GPT-4o survendu comme par magie
Sam Altman, dans un tweet du vendredi précédant l'annonce, promettait des « nouveautés » qui lui paraissaient « magiques » :
« Ce n'est pas gpt-5, ce n'est pas un moteur de recherche, mais nous avons travaillé dur sur de nouvelles choses que nous pensons que les gens vont adorer ! c'est comme de la magie pour moi.
Le co-fondateur d'OpenAI, Greg Brockman, a tweeté :
« Présentation de GPT-4o, notre nouveau modèle capable de raisonner sur du texte, de l'audio et de la vidéo en temps réel.
Il est extrêmement polyvalent, amusant à jouer et constitue un pas vers une forme beaucoup plus naturelle d'interaction homme-machine (et même d'interaction homme-machine-machine) : »
L'annonce elle-même expliquait que les versions précédentes de ChatGPT utilisaient trois modèles pour traiter l'entrée audio. Un modèle pour transformer l’entrée audio en texte. Un autre modèle pour terminer la tâche et en sortir la version texte et un troisième modèle pour transformer la sortie texte en audio. L'avancée du GPT-4o est qu'il peut désormais traiter l'entrée et la sortie audio au sein d'un seul modèle et tout produire dans le même temps qu'il faut à un humain pour écouter et répondre à une question.
Mais le problème c'est que la partie audio n'est pas encore en ligne. Ils travaillent toujours à faire fonctionner les garde-corps et il faudra des semaines avant qu'une version Alpha soit publiée pour quelques utilisateurs à des fins de test. Les versions Alpha devraient éventuellement contenir des bugs tandis que les versions Beta sont généralement plus proches des produits finaux.
Voici comment OpenAI a expliqué ce retard décevant :
« Nous reconnaissons que les modalités audio de GPT-4o présentent une variété de nouveaux risques. Aujourd'hui, nous publions publiquement des entrées et des sorties de texte et d'images. Au cours des semaines et des mois à venir, nous travaillerons sur l'infrastructure technique, la convivialité via la post-formation et la sécurité nécessaires à la sortie des autres modalités.
La partie la plus importante du GPT-4o, l'entrée et la sortie audio, est terminée mais le niveau de sécurité n'est pas encore prêt à être rendu public.
Certains utilisateurs déçus
Il est inévitable qu'un produit incomplet et survendu génère un sentiment négatif sur les réseaux sociaux.
L'ingénieur en IA Maziyar Panahi ( profil LinkedIn ) a tweeté sa déception :
« J'ai testé le nouveau GPT-4o (Omni) dans ChatGPT. Je ne suis pas impressionné! Pas même un peu! Plus rapides, moins chers, multimodaux, ce ne sont pas pour moi.
Interpréteur de code, c'est tout ce qui m'importe et c'est aussi paresseux qu'avant !
Il a enchaîné avec :
«Je comprends que pour les startups et les entreprises, les solutions audio moins chères, plus rapides, etc. sont très attrayantes. Mais je n'utilise que le Chat, et là-dedans, c'est à peu près la même chose. Au moins pour l'assistant Data Analytics.
De plus, je ne pense pas obtenir quelque chose de plus pour mes 20 $. Pas aujourd'hui!"
Il y en a d'autres sur Facebook et X qui ont exprimé des sentiments similaires, même si beaucoup d'autres étaient satisfaits de ce qu'ils considéraient comme une amélioration de la vitesse et du coût de l'utilisation de l'API.
OpenAI a-t-il survendu GPT-4o ?
Étant donné que le GPT-4o est dans un état inachevé, il est difficile de ne pas manquer l'impression que la sortie a été programmée pour coïncider avec Google I/O et lui nuire. Le publier à la veille du grand jour de Google avec un produit semi-fini a peut-être créé par inadvertance l'impression que GPT-4o dans son état actuel est une amélioration itérative mineure.
Dans l'état actuel, ce n'est pas un pas en avant révolutionnaire, mais une fois que la partie audio du modèle quitte la phase de test Alpha et passe la phase de test bêta, nous pouvons alors commencer à parler de révolutions dans le grand modèle de langage. Mais au moment où cela se produira, Google et Anthropic auront peut-être déjà planté un drapeau sur cette montagne.
L'annonce d'OpenAI dresse une image terne du nouveau modèle, promouvant des performances au même niveau que GPT-4 Turbo. Les seuls points positifs sont les améliorations significatives dans les langues autres que l'anglais et pour les utilisateurs de l'API.
OpenAI explique :
- "Il correspond aux performances de GPT-4 Turbo sur le texte en anglais et en code, avec une amélioration significative sur le texte dans les langues non anglaises, tout en étant également beaucoup plus rapide et 50 % moins cher dans l'API."
Voici les notes sur six benchmarks qui montrent que GPT-4o dépasse à peine GPT-4T dans la plupart des tests, mais est en retard sur GPT-4T dans un benchmark important pour la compréhension en lecture.
Voici les scores :
- MMLU (Compréhension massive du langage multitâche)
Il s'agit d'une référence en matière de précision multitâche et de résolution de problèmes dans plus de cinquante sujets tels que les mathématiques, les sciences, l'histoire et le droit. GPT-4o (avec un score de 88,7) est légèrement en avance sur GPT4 Turbo (86,9). - GPQA (référence de questions et réponses à l'épreuve de Google pour les cycles supérieurs)
Il s'agit de 448 questions à choix multiples rédigées par des experts humains dans divers domaines comme la biologie, la chimie et la physique. GPT-4o a obtenu un score de 53,6, dépassant légèrement GPT-4T (48,0). - Mathématiques
GPT 4o (76,6) surpasse GPT-4T de quatre points (72,6). - HumanEval
Il s’agit de la référence en matière de codage. GPT-4o (90,2) surpasse légèrement GPT-4T (87,1) d'environ trois points. - MGSM (référence mathématique multilingue pour les écoles primaires)
Cela teste les compétences mathématiques du niveau LLM de l’école primaire dans dix langues différentes. GPT-4o obtient un score de 90,5 contre 88,5 pour GPT-4T. - DROP (raisonnement discret sur les paragraphes)
Il s'agit d'un benchmark composé de 96 000 questions qui testent la compréhension du modèle linguistique sur le contenu des paragraphes. GPT-4o (83,4) obtient un score inférieur de près de trois points à GPT-4T (86,0).
OpenAI a-t-il troqué Google avec GPT-4o ?
Compte tenu du nom provocateur du modèle avec la lettre o, il est difficile de ne pas considérer qu'OpenAI tente d'attirer l'attention des médias à l'approche de l'importante conférence I/O de Google. Que ce soit l'intention ou non, OpenAI a réussi à minimiser l'attention accordée à la prochaine conférence de recherche de Google.
Un modèle linguistique qui surpasse à peine son prédécesseur mérite-t-il tout le battage médiatique et l’attention médiatique qu’il a reçu ? L'annonce imminente a dominé la couverture médiatique du grand événement de Google, donc pour OpenAI, la réponse est clairement oui, cela en valait la peine.
Image en vedette par Shutterstock/Shaheerrr