Le nouveau LLM Open Source avec Zero Guardrails rivalise avec le Palm 2 de Google

Le nouveau LLM Open Source avec Zero Guardrails rivalise avec le Palm 2 de Google

13 septembre 2023

Hugging Face a récemment présenté Falcon 180B, le plus grand modèle de langage large open source censé fonctionner aussi bien que l'IA de pointe de Google, Palm 2. Et il n'a pas non plus de garde-fou pour l'empêcher de créer des environnements dangereux. de sorties nocives.

Le Falcon 180B atteint des performances de pointe

L'expression « état de l'art » signifie que quelque chose fonctionne au niveau le plus élevé possible, égal ou supérieur au exemple actuel de ce qui est le meilleur.

C'est un gros problème lorsque les chercheurs annoncent qu'un un algorithme ou un grand modèle de langage atteint des performances de pointe.

Et c'est exactement ce que dit Hugging Face à propos du Falcon 180B.

Le Falcon 180B atteint des performances de pointe sur les tâches en langage naturel, bat les modèles open source précédents et « rivalise » également avec le Palm 2 de Google en termes de performances.

Ce ne sont pas seulement des vantardises.

L'affirmation de Hugging Face selon laquelle le Falcon 180B rivalise avec le Palm 2 est sauvegardé par des données.

Les données montrent que le Falcon 180B surpasse le précédent modèle open source le plus puissant, le Llama 270B, dans une gamme de tâches utilisées pour mesurer la puissance d'un modèle d'IA.

Le Falcon 180B surpasse même le GPT-3.5 d'OpenAI.

Les données de test montrent également que Le Falcon 180B fonctionne au même niveau que le Palm 2 de Google.

Capture d'écran de comparaison des performances

Le nouveau LLM Open Source sans garde-corps rivalise avec le Palm 2 de Google

Le nouveau LLM Open Source sans garde-corps rivalise avec le Palm 2 de Google

L'annonce expliquée :

L'annonce expliquée :

« Falcon 180B est le meilleur LLM publié ouvertement aujourd'hui, surpassant Llama 2 70B et GPT-3.5 d'OpenAI…

Falcon 180B se situe généralement quelque part entre GPT 3.5 et GPT4 selon le référentiel d'évaluation… "

« Falcon 180B est le meilleur LLM publié ouvertement aujourd'hui, surpassant Llama 2 70B et GPT-3.5 d'OpenAI…

Falcon 180B se situe généralement quelque part entre GPT 3.5 et GPT4 selon le référentiel d'évaluation… "

L'annonce implique ensuite qu'un réglage plus fin du modèle par les utilisateurs peut améliorer encore plus les performances.

Des problèmes techniques mineurs qui brouillent l'indexation, comme déclenchant des redirections 301 par des liens internes vers d'anciennes URL qui ont été mises à jour avec une structure de catégories.

Ensemble de données utilisé pour entraîner le Falcon 180B

Hugging Face a publié un document de recherche (Version PDF ici) contenant les détails de l'ensemble de données utilisé pour entraîner le Falcon 180B.

Version PDF ici

Il s'appelle The RefinedWeb Dataset.

Cet ensemble de données se compose uniquement de contenu provenant d'Internet, obtenu à partir du Common Crawl open source, un ensemble de données accessible au public sur le Web.

L'ensemble de données est ensuite filtré et soumis à un processus de déduplication (la suppression des données en double ou redondantes) pour améliorer la qualité de ce qui reste.< /p>

Ce que les chercheurs tentent de réaliser avec le filtrage, c'est de supprimer le spam généré par la machine, le contenu répété, le contenu passe-partout, plagié et les données qui ne sont pas représentatives du langage naturel.

Le document de recherche explique :

Le document de recherche explique :

« En raison d'erreurs d'exploration et de sources de mauvaise qualité, de nombreux documents contiennent des séquences répétées : cela peut provoquer un comportement pathologique dans le modèle final…

…Une fraction importante des pages est du spam généré automatiquement, composé principalement de listes. de mots-clés, de texte passe-partout ou de séquences de caractères spéciaux.

De tels documents ne sont pas adaptés à la modélisation du langage…

…Nous adoptons une stratégie de déduplication agressive, combinant à la fois des correspondances floues de documents et des correspondances exactes. suppression des séquences. »

« En raison d'erreurs d'exploration et de sources de mauvaise qualité, de nombreux documents contiennent des séquences répétées : cela peut provoquer un comportement pathologique dans le modèle final…

…Une fraction importante des pages est du spam généré automatiquement, composé principalement de listes. de mots-clés, de texte passe-partout ou de séquences de caractères spéciaux.

De tels documents ne sont pas adaptés à la modélisation du langage…

…Nous adoptons une stratégie de déduplication agressive, combinant à la fois des correspondances floues de documents et des correspondances exactes. suppression des séquences. »

Apparemment, il devient impératif de filtrer et de nettoyer l'ensemble de données car il est exclusivement composé de données Web, par opposition à d'autres ensembles de données qui ajoutent des données non Web.

Les efforts des chercheurs pour filtrer les absurdités ont abouti à un ensemble de données qui, selon eux, est tout à fait fiable. ainsi que des ensembles de données plus organisés, composés de livres piratés et d'autres sources de données non Web.

Ils concluent en déclarant que leur ensemble de données est un succès :

Ils concluent en déclarant que leur ensemble de données est un succès :

« Nous avons démontré qu'un filtrage et une déduplication rigoureux pourraient aboutir à un ensemble de données Web de cinq mille milliards de jetons, adapté pour produire des modèles compétitifs avec l'état de l'art, surpassant même les LLM formés sur des corpus organisés. »

« Nous avons démontré qu'un filtrage et une déduplication rigoureux pourraient aboutir à un ensemble de données Web de cinq mille milliards de jetons, adapté pour produire des modèles compétitifs avec l'état de l'art, surpassant même les LLM formés sur des corpus organisés. »

Le Falcon 180B n'a aucun garde-corps

Ce qui est remarquable à propos du Falcon 180B, c'est qu'aucun réglage d'alignement n'a été effectué pour l'empêcher de générer une sortie nuisible ou dangereuse et rien pour l'empêcher de le faire. inventer des faits et mentir purement et simplement.

En conséquence, le modèle peut être ajusté pour générer le type de sortie qui ne peut pas être généré avec les produits d'OpenAI et de Google.

Ceci est répertorié dans une section de l'annonce intitulée Limitations.

Hugging Face conseille :

Hugging Face conseille :

« Limites : le modèle peut produire et produira des informations factuellement incorrectes, des faits et des actions hallucinants.

Comme il n'a subi aucun réglage avancé/ alignement, cela peut produire des résultats problématiques, surtout si vous y êtes invité. "

« Limites : le modèle peut produire et produira des informations factuellement incorrectes, des faits et des actions hallucinants.

Comme il n'a subi aucun réglage avancé/ alignement, cela peut produire des résultats problématiques, surtout si vous y êtes invité. "

Utilisation commerciale du Falcon 180B

Hugging Face permet une utilisation commerciale du Falcon 180B.

Cependant, il est publié sous une licence restrictive.

licence restrictive.

Ceux qui souhaitent utiliser le Falcon 180B sont encouragés par Hugging Face à d'abord consulter un avocat.

Falcon 180B est comme un point de départ

Enfin, le modèle n'a pas suivi de formation d'instruction, ce qui signifie qu'il doit être formé pour être un Chatbot IA.

C'est donc comme un modèle de base qui a besoin de plus pour devenir ce que les utilisateurs veulent qu'il soit. Hugging Face a également publié un modèle de chat, mais il s'agit apparemment d'un modèle « simple ».

modèle de chat

Hugging Face explique :

Hugging Face explique :

« Le modèle de base n'a pas de format d'invite. N'oubliez pas qu'il ne s'agit pas d'un modèle conversationnel ni d'un entraînement avec des instructions. Ne vous attendez donc pas à ce qu'il génère des réponses conversationnelles : le modèle pré-entraîné est une excellente plate-forme pour un réglage plus précis, mais vous ne devriez probablement pas l'utiliser directement dès le départ.

Le modèle Chat a une structure de conversation très simple. »

« Le modèle de base n'a pas de format d'invite. N'oubliez pas qu'il ne s'agit pas d'un modèle conversationnel ni d'un entraînement avec des instructions. Ne vous attendez donc pas à ce qu'il génère des réponses conversationnelles : le modèle pré-entraîné est une excellente plate-forme pour un réglage plus précis, mais vous ne devriez probablement pas l'utiliser directement dès le départ.

Le modèle Chat a une structure de conversation très simple. »

Lire l'annonce officielle :

Lire l'annonce officielle :

Spread Vos ailes : le Falcon 180B est là

Spread Vos ailes : le Falcon 180B est là

Image sélectionnée par Shutterstock/Giu Studios

Image sélectionnée par Shutterstock/Giu Studios