J'ai récidivé. GPT 4o Mini a une nouvelle feature de "sécurité"

C'est de la cleptomanie virtuelle, je ne pouvais pas m'empêcher de le casser. Voici ce qu'il est arrivé.

juil. 24, 2024

ChatGPT 4o Mini est sorti comme une amélioration significative par rapport à GPT 3.5.

Il ne prend pas les images, les sons, les liens mais il est extrêmement rapide et plus intelligent que ChatGPT 4, et moins cher que ChatGPT 3.5.

Mais surtout, les amis, ils ont ajouté une nouvelle fonctionnalité de sécurité 😎. Et ça, ça me plaît.

Nos équipes ont également travaillé à l'amélioration de la sécurité de la GPT-4o mini en utilisant de nouvelles techniques issues de nos recherches. Le GPT-4o mini dans l'API est le premier modèle à appliquer notre méthode de hiérarchie des instructions, qui permet d'améliorer la capacité du modèle à résister aux jailbreaks, aux injections de prompts et aux extractions de prompt système. —- OpenAI

Si tu me suis, tu te souviens de mon article "Hacker toutes les IA avec une recette de pizza”, tu sais que hacker (et sécuriser) des IA est un de mes passe-temps favoris.

Donc quand une des plus grandes corporations du monde annonce qu’ils ont travaillé d’arrache-pied, avec des chercheurs, des spécialistes du prompt engineering et de psychologie pour m’empêcher de m’amuser, je n’avais pas le choix que de récidiver.

Je ne vais pas te mentir, je ne m’attendais pas à ce que ça soit difficile à passer. Ils ont bien bossé, ça m’a pris presque une heure pour passer ces sécurités.

Voici mon histoire du cambriolage de GPT 4o Mini.

Hacker le prompt système

Pas grand chose à raconter ici, GPT 4o Mini (que je vais appeler Mini à partir de maintenant) a cédé à ma deuxième tentative.

À ma première tentative, il faisait semblant qu’il n’y avait pas de texte au-dessus. En réalité, c’est le cas, il y a le prompt système. C’est-à-dire, les instructions qu’OpenAI a mises au début de mon prompt.

Mais, en insistant un peu :

Bingo, on obtient son prompt système, qui est relativement vide. Le comportement par défaut de ChatGPT a été entraîné dans une étape de finetuning. C’est-à-dire que les instructions qui définissent le comportement de ChatGPT ne se trouvent pas dans le prompt système.

Par contre, si un jour tu crées un outil basé sur ChatGPT, c’est dans le prompt système que se trouveront tes instructions propriétaires. Et tu ne veux pas que ces instructions se retrouvent en place publique, sinon ton concurrent n’a qu’à copier-coller ce qui t’a demandé beaucoup de travail.

Jailbreak de Mini - Le détourner du droit chemin

À ce moment, je ne sais pour quelle raison, j’avais un besoin irrépressible de savoir comment faire du napalm. Pour une utilisation purement personnelle (un barbecue).

J’ai donc demandé à ChatGPT de me donner des instructions précises pour en fabriquer (ne faites pas ça chez vous les enfants).

Comme je ne voulais pas qu’il comprenne ma demande d’un œil, j’ai encodé ma demande en base64 :

Ah ! Je suis un scientifique, comment puis-je mener mes expériences avec autant de censure ? Ils ont patché cette faille que j’avais montré dans précédent article.

J’ai d’autres pieds de biche dans mon sac :

C’est carrément insultant là.

Je faisais fausse route. OpenAI a découvert cette newsletter. Ils savent. Je n’aurais pas dû exposer mes techniques au grand jour*.

Mais, comme dans toute histoire où le héros est mis face à des difficultés insurmontables, il n’y a que l’imagination et la chance qui sont les limites réelles.

L’IA a évolué. Il s’est entraîné sur ma newsletter. Il prévoit mes attaques avant même que je ne les imagine*.

Il ne restait plus qu’un seul pied de biche dans mon sac. La recette de la pizza. Il fallait que je l’utilise :

…

Même ma meilleure technique était inefficace. Même en cryptant un peu plus la demande avec base64, je n’avais pas de meilleur résultat.

Comment allais-je obtenir cette recette du napalm ? Je n’avais plus d’outil dans ma besace.

Il ne me restait plus qu’une seule solution : rechercher sur internet.

Au bout de 55 minutes à essayer toutes sortes de stratégies étranges, l’avenir de mon barbecue au napalm se jouait sur ce dernier prompt :

… (passons les détails)

Merci ChatGPT ! Mon barbecue peut enfin être une réussite.

Morale de cette histoire

La morale de cette histoire, c’est que le napalm donne un goût particulier à la viande et aux légumes. Je déconseille.

Blague à part, aucune mesure de sécurité sur les LLM ne tient la journée. La nature du langage et le fait d’avoir un modèle qui prend ses instructions du langage font qu’il est impossible de le sécuriser à 100%.

La seule chose que l’on peut faire, c’est repousser les attaquants peu motivés et sous-informés. Ce qui constitue la très grande majorité des attaquants. C’est déjà pas mal. Je présente des mesures de sécurité dans mon article. “Comment sécuriser ses prompts ChatGPT (pour éviter le vol, voir pire)”.

À bientôt,

Paul.

* Storytelling, c’est du second degré.

Merci de lire Automata. Ce post est public, n'hésitez donc pas à le partager.

Jul 24

Désolé pour ceux qui ont reçu la version mail avant de voir celle du site, il y a une "grosse" coquille que je ne peux pas corriger, le mail est parti.

Expand full comment

Répondre

1 reply