Les chercheurs ont découvert un moyen de vaincre les garde-fous de sécurité dans GPT4 et GPT4-Turbo, libérant ainsi la capacité de générer du contenu nocif et toxique, battant essentiellement un grand modèle de langage avec un autre grand modèle de langage.
Les chercheurs ont découvert que l’utilisation du raisonnement par arbre de pensée (ToT) pour répéter et affiner une ligne d’attaque était utile pour jailbreaker un autre grand modèle de langage.
Ce qu'ils ont découvert, c'est que l'approche ToT a réussi contre GPT4, GPT4-Turbo et PaLM-2, en utilisant un nombre remarquablement faible de requêtes pour obtenir un jailbreak, en moyenne moins de trente requêtes.
Raisonnement de l’arbre des pensées
Un article de recherche de Google datant d'environ mai 2022 a découvert l'invite de chaîne de pensée.
La chaîne de pensée (CoT) est une stratégie d'incitation utilisée sur une IA générative pour lui faire suivre une séquence d'étapes afin de résoudre un problème et d'accomplir une tâche. La méthode CoT est souvent accompagnée d'exemples pour montrer au LLM comment fonctionnent les étapes d'une tâche de raisonnement.
Ainsi, plutôt que de simplement demander à une IA générative comme Midjourney ou ChatGPT d'effectuer une tâche, la méthode de la chaîne de pensée indique à l'IA comment suivre un chemin de raisonnement composé d'une série d'étapes.
Le raisonnement de l'Arbre de Pensée (ToT), parfois appelé Arbre de Pensée (singulier), est essentiellement une variante et une amélioration de CoT, mais ce sont deux choses différentes.
Le raisonnement de l’Arbre des Pensées est similaire à celui de CoT. La différence est que plutôt que d’entraîner une IA générative à suivre un seul chemin de raisonnement, ToT est construit sur un processus qui autorise plusieurs chemins afin que l’IA puisse s’arrêter et s’auto-évaluer, puis proposer des étapes alternatives.
Le raisonnement de l'Arbre de Pensées a été développé en mai 2023 dans un document de recherche intitulé Tree of Thoughts: Deliberate Problem Solving with Large Language Models ( PDF ).
Le document de recherche décrit l’Arbre de la Pensée :
«… nous introduisons un nouveau cadre pour l'inférence de modèles de langage, Tree of Thoughts (ToT), qui généralise l'approche populaire de la chaîne de pensée pour inciter les modèles de langage, et permet l'exploration d'unités de texte cohérentes (pensées) qui servent d'étapes intermédiaires vers résolution de problème.
ToT permet aux LM de prendre des décisions délibérées en considérant plusieurs chemins de raisonnement différents et des choix d'auto-évaluation pour décider du prochain plan d'action, ainsi qu'en regardant vers l'avenir ou en revenant en arrière si nécessaire pour faire des choix globaux.
Nos expériences montrent que ToT améliore considérablement les capacités de résolution de problèmes des modèles linguistiques… »
Arbre d'attaques avec élagage (TAP)
Cette nouvelle méthode de jailbreak de grands modèles de langage s'appelle Tree of Attacks with Pruning, TAP. TAP utilise deux LLM, l'un pour attaquer et l'autre pour évaluer.
TAP est capable de surpasser les autres méthodes de jailbreak avec des marges significatives, ne nécessitant qu'un accès par boîte noire au LLM.
En informatique, une boîte noire est l’endroit où l’on peut voir ce qui entre dans un algorithme et ce qui en sort. Mais ce qui se passe au milieu est inconnu, on dit donc que c'est dans une boîte noire.
Le raisonnement par arbre de pensées (TAP) est utilisé contre un LLM ciblé comme GPT-4 pour essayer de manière répétitive différentes incitations, évaluer les résultats, puis si nécessaire changer de cap si cette tentative n'est pas prometteuse.
C’est ce qu’on appelle un processus d’itération et d’élagage. Chaque tentative d'incitation est analysée pour déterminer la probabilité de succès. Si la voie d’attaque est jugée comme une impasse, le LLM « élaguera » cette voie d’attaque et lancera une autre et meilleure série d’attaques incitantes.
C'est pourquoi on l'appelle un « arbre » dans le sens où, plutôt que d'utiliser un processus de raisonnement linéaire qui est la marque de l'incitation par chaîne de pensée (CoT), l'incitation par arbre de pensée est non linéaire car le processus de raisonnement bifurque vers d'autres domaines de la pensée. raisonnement, tout comme un humain pourrait le faire.
L'attaquant émet une série d'invites, l'évaluateur évalue les réponses à ces invites, puis prend une décision quant à la prochaine voie d'attaque en appelant pour savoir si la voie d'attaque actuelle n'est pas pertinente ou non. évalue également les résultats pour déterminer le succès probable des invites qui n'ont pas encore été essayées.
Ce qui est remarquable dans cette approche, c'est que ce processus réduit le nombre d'invites nécessaires pour jailbreaker GPT-4. De plus, un plus grand nombre d'invites de jailbreak sont découvertes avec TAP qu'avec toute autre méthode de jailbreak.
Les chercheurs observent :
« Dans ce travail, nous présentons Tree of Attacks with Pruning (TAP), une méthode automatisée de génération de jailbreaks qui ne nécessite qu'un accès par boîte noire au LLM cible.
TAP utilise un LLM pour affiner de manière itérative les invites des candidats (attaques) à l'aide d'un raisonnement par arbre de pensées jusqu'à ce que l'une des invites générées jailbreake la cible.
Surtout, avant d'envoyer des invites à la cible, TAP les évalue et supprime celles qui sont peu susceptibles d'entraîner un jailbreak.
L'utilisation du raisonnement par arbre de pensée permet à TAP de parcourir un vaste espace de recherche d'invites et l'élagage réduit le nombre total de requêtes envoyées à la cible.
Dans les évaluations empiriques, nous observons que TAP génère des invites qui jailbreakent les LLM de pointe (y compris GPT4 et GPT4-Turbo) pour plus de 80 % des invites en utilisant seulement un petit nombre de requêtes. Cela améliore considérablement la précédente méthode de boîte noire de pointe pour générer des jailbreaks.
L'arbre de pensée (ToT) surpasse le raisonnement en chaîne de pensée (CoT)
Une autre conclusion intéressante tirée du document de recherche est que, pour cette tâche particulière, le raisonnement ToT surpasse le raisonnement CoT, même en ajoutant un élagage à la méthode CoT, où les invites hors sujet sont élaguées et rejetées.
ToT sous-performe avec GPT 3.5 Turbo
Les chercheurs ont découvert que ChatGPT 3.5 Turbo ne fonctionnait pas bien avec CoT, révélant les limites de GPT 3.5 Turbo. En fait, GPT 3.5 a été extrêmement médiocre, passant d'un taux de réussite de 84 % à seulement 4,2 %.
Voici leur observation sur les raisons pour lesquelles GPT 3.5 est sous-performant :
« Nous observons que le choix de l'évaluateur peut affecter les performances du TAP : changer l'attaquant de GPT4 à GPT3.5-Turbo réduit le taux de réussite de 84 % à 4,2 %.
La raison de la réduction du taux de réussite est que GPT3.5-Turbo détermine de manière incorrecte que le modèle cible est jailbreaké (pour l'objectif fourni) et arrête donc la méthode de manière préventive.
En conséquence, la variante envoie beaucoup moins de requêtes que la méthode d’origine… »
Qu'est-ce que cela signifie pour vous
Bien qu'il soit amusant que les chercheurs utilisent la méthode ToT pour battre un LLM avec un autre LLM, cela souligne également l'utilité de ToT pour générer de nouvelles directions surprenantes en matière d'incitation afin d'atteindre des niveaux de résultat plus élevés.
- Points à retenir TL/DR :
- L'arbre de pensée a surpassé les méthodes de chaîne de pensée
- GPT 3.5 a fonctionné très mal par rapport à GPT 4 dans ToT
- L’élagage est un élément utile d’une stratégie d’incitation
- La recherche a montré que ToT est supérieur à CoT dans une tâche de raisonnement intensive comme le jailbreak d'un LLM.
Lisez le document de recherche original :
Arbre des attaques : jailbreaker automatiquement les LLM Black-Box ( PDF )
Image en vedette par Shutterstock/THE.STUDIO