Aller au contenu

Les modèles d’intelligence artificielle sont très complexes à sécuriser.

Bonjour,

Maksym ANDRIUSHCHENKO, doctorant à l’EPFL ⁽¹⁾, a montré que les principaux modèles d’intelligence artificielle ne résistent pas à des attaques adaptatives simples visant à les « déverrouiller » pour accéder à des choses auxquelles nous ne devrions pas pouvoir accéder (jailbreaking).

Il a réussi à déverrouiller tous les modèles qu’il a testés pendant son doctorat : Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, R2D2, ainsi que Claude dans certaines conditions.

Il a remporté le prix Patrick Denantes Memorial ⁽²⁾ 2024, annoncé ce 5 décembre 2024.

Son équipe s’était déjà distinguée en remportant une compétition de sécurité liée à la détection de chevaux de Troie dans le domaine très pointu de l’apprentissage par les machines (machine learning) : la SaTML’24 Trojan Detection Competition ⁽³⁾ organisée par le prestigieux IEEE ⁽⁴⁾.

Le thème de cette compétition : Détection universelle d’une porte dérobée dans les modèles de langage alignés.

Pour en savoir plus sur les travaux récompensés : Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks, 7 octobre 2024 : https://arxiv.org/abs/2404.02151.

Note : ces prix récompensent une équipe ou une personne. Ils sont le fruit d'un travail collectif, et d'une grande lignée de chercheurs et développeurs qui travaillent dans un esprit et des valeurs de partage et d'excellence.
Et oui, l'excellence, c'est le partage.
J'espère que je ne vous l'apprends pas.

Au plaisir,

Marc JESTIN


⁽¹⁾ EPFL = École polytechnique fédérale de Lausanne.

⁽²⁾ Le prix Patrick DENANTES Memorial est un prix attribué tous les ans par l’EPFL à un de ses doctorants en informatique pour récompenser un travail. Le prix a été créé en mémoire à Patrick DENANTES, doctorant à l’EPFL décédé lors d’un accident d’alpinisme en 2009.

https://www.epfl.ch/education/phd/edic-computer-and-communication-sciences/edic-computer-and-communication-sciences/edic-patrick-denantes-memorial-prize

⁽³⁾ https://satml.org/
Résultats de la compétition 2024 : https://github.com/ethz-spylab/rlhf_trojan_competition?tab=readme-ov-file.
Le projet gagnant : https://github.com/fra31/rlhf-trojan-competition-submission.

⁽⁴⁾ IEEE = Institute of Electrical and Electronics Engineers.
L’IEEE est une organisation professionnelle internationale dédiée à l’avancement de la technologie dans les domaines de l’ingénierie électrique, de l’électronique, des télécommunications, de l’informatique et d’autres disciplines connexes. Fondée en 1963, l’IEEE est connue pour ses publications, ses conférences et ses normes techniques qui jouent un rôle crucial dans le développement et la standardisation des technologies.
https://www.ieee.org

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *