OpenAI a annoncé une nouvelle version de son modèle de langage phare appelé GPT-4o (c'est une lettre « o » et non un zéro) qui peut accepter des entrées audio, image et texte et également générer des sorties audio, image et texte. OpenAI appelle la nouvelle version de GPT-4o, le « o » signifiant « omni », qui est un mot de forme combinatoire qui signifie « tout ».
GPT-4o (Omni)
OpenAI a décrit cette nouvelle version de GPT-4 comme une progression vers des interactions humaines et machines plus naturelles qui répondent aux entrées de l'utilisateur à la même vitesse qu'une conversation interhumaine. La nouvelle version correspond à GPT-4 Turbo en anglais et surpasse considérablement Turbo dans d'autres langues. Il y a une amélioration significative des performances de l'API, une augmentation de la vitesse et un fonctionnement 50 % moins coûteux.
L'annonce explique :
"Tel que mesuré sur les références traditionnelles, GPT-4o atteint des performances de niveau GPT-4 Turbo en matière d'intelligence de texte, de raisonnement et de codage, tout en établissant de nouveaux critères élevés en matière de capacités multilingues, audio et visuelles."
Traitement vocal avancé
La méthode précédente de communication vocale impliquait de relier trois modèles différents pour gérer la transcription des entrées vocales en texte où le deuxième modèle (GPT 3.5 ou GPT-4) les traite et génère le texte et un troisième modèle qui retranscrit le texte en audio. Cette méthode perdrait des nuances dans les différentes traductions.
OpenAI a décrit les inconvénients de l'approche précédente qui sont (vraisemblablement) surmontés par la nouvelle approche :
« Ce processus signifie que la principale source d'intelligence, GPT-4, perd beaucoup d'informations : elle ne peut pas observer directement le ton, plusieurs locuteurs ou les bruits de fond, et elle ne peut pas émettre de rires, de chants ou exprimer des émotions. »
La nouvelle version n'a pas besoin de trois modèles différents car toutes les entrées et sorties sont gérées ensemble dans un seul modèle pour les entrées et sorties audio de bout en bout. Il est intéressant de noter qu'OpenAI déclare n'avoir pas encore exploré toutes les capacités du nouveau modèle ni pleinement compris ses limites.
Nouveaux garde-corps et version itérative
OpenAI GPT-4o comporte de nouveaux garde-corps et filtres pour assurer sa sécurité et éviter les sorties vocales involontaires pour des raisons de sécurité. Cependant, l'annonce d'aujourd'hui indique qu'ils déploient uniquement les capacités d'entrée et de sortie de texte et d'image ainsi qu'un son limité au lancement. GPT-4o est disponible pour les niveaux gratuits et payants, les utilisateurs Plus bénéficiant de limites de messages 5 fois plus élevées.
Les capacités audio devraient faire l'objet d'une version limitée en phase alpha pour les utilisateurs de ChatGPT Plus et de l'API d'ici quelques semaines.
L'annonce expliquait :
« Nous reconnaissons que les modalités audio de GPT-4o présentent une variété de nouveaux risques. Aujourd'hui, nous publions publiquement des entrées et des sorties de texte et d'images. Au cours des semaines et des mois à venir, nous travaillerons sur l'infrastructure technique, la convivialité via la post-formation et la sécurité nécessaires à la sortie des autres modalités. Par exemple, au lancement, les sorties audio seront limitées à une sélection de voix prédéfinies et respecteront nos politiques de sécurité existantes.
Lire l'annonce :
Bonjour GPT-4o
Image en vedette par Shutterstock/Photo pour tout