IA et cybersécurité :
Une affaire de gentils et de méchants
L’intelligence artificielle ( IA) est devenue un outil essentiel dans le domaine de la cybersécurité en raison de sa capacité à analyser de grandes quantités de données en temps réel et à détecter les menaces potentielles de manière proactive. Une nouvelle composante a fait son entrée :
L’IA générative, qui trouve déjà des applications du côté des défenseurs… mais aussi des attaquants en transformant le visage de la menace.
L' avènement de l'intelligence artificielle ( IA) ces dernières années soulève de nombreuses problématiques en matière de cybersécurité, d'autant plus depuis l'arrivée des grands modèles de langage ( LLM), qui ont rendu L'IA plus accessible que jamais par l'intermédiaire des agents conversationnels. En discutant avec les RSSI ( Responsables de la sécurité des systèmes d'information) et les équipes de sécurité des clients de Google, Thiebaut Meyer, directeur stratégies de sécurité chez Google Cloud, a identifié trois grands enjeux en matière de cybersécurité : « le premier concerne la façon dont L’IA va transformer la menace ; le second, comment elle aidera les équipes de sécurité à être plus performantes et réactives ; le troisième, qui prend de plus en plus d’importance, la façon de déployer une application ou un modèle D’IA de manière sécurisée. »
La feuille de route est sensiblement identique pour Fred Simon, cofondateur et Chief Data Scientist de Jfrog, entreprise spécialisée dans le gestionnaire de dépôts binaires et le Devsecops. Il identifie lui aussi trois piliers fondamentaux : « L’IA pour aider les attaquants à former des attaques et à les mettre en place, L’IA pour aider la défense contre les menaces, et L’IA comme nouveau vecteur d’attaques des entreprises. » Les cybercriminels sont au centre des préoccupations. Et à juste titre, selon Fred Simon : « nous commençons à observer des cas d’usage de L’IA dont peuvent se saisir les pirates pour écrire du code plus rapidement, par exemple, et essayer de contourner les défenses traditionnelles. » Bien que la plupart des LLM soient sécurisés pour éviter de produire du code malveillant, nombre de modèles open source ont fait leur entrée sur le marché. « Une fois qu’il y a possibilité de fournir à une IA du code existant et des modes de défense existants, il est possible d’exploiter ces informations » , ajoute le cofondateur de Jfrog. Et ce bien sûr, avec des performances bien supérieures à ce que serait capable de fournir un être humain, en termes de quantité de données traitées et de vitesse d'analyse.
Gen AI : l’ingénierie sociale comme vous ne l’avez jamais vue
Mais là où les observateurs craignent que L'IA, et plus exactement la Gen AI, ait le plus d'impact, du moins dans un premier temps, c'est sur la qualité des attaques d'ingénierie sociale. « Les attaquants adoptent de plus en plus des stratégies de relations de clients à fournisseurs ; on le voit avec le ransomware en tant que service et la fourniture de kits d’hameçonnage. Ces kits deviennent d’ailleurs bien meilleurs et, dans le fond, ils le sont grâce à L’IA » , souligne Benoît Grunemwald, directeur des relations publiques et porte- parole D'ESET, éditeur de solutions de cybersécurité. Des kits plus efficaces, plus universels, mieux traduits…
La Gen AI permet en fait d'atteindre un haut degré de personnalisation pour rendre des méthodes, tel le spear- phishing ( hameçonnage ciblé), toujours plus difficiles à déceler pour une cible. Comment ? En tirant profit des quantités astronomiques de données publiques, afin de dresser un profil toujours plus fin de la cible, en analysant ses comportements, ses préférences, et en produisant ensuite des e- mails de phishing aux petits oignons, et donc en théorie, plus efficaces pour tromper la victime. Marijus Briedis, CTO de NORDVPN, allait même plus loin dans un rapport sur les risques liés à l'association des hackers et de L'IA : « si un employé d’une entreprise utilise un outil D’IA pour rédiger un rapport à partir d’informations confidentielles, ces mêmes données pourraient être utilisées ultérieurement pour créer des attaques de spear- phishing hautement personnalisées » , avançait dans un rapport sur les risques liés à l'association des hackers et de L'IA. À comprendre,
« Sur le long terme, la Gen AI bénéficiera plutôt aux défenseurs qui connaissent l’environnement, les caractéristiques spécifiques de leur organisation et ses données indispensables à l’entraînement des modèles. Cela permettra d’aboutir à des résultats pertinents, au contraire, des attaquants qui disposeront d’outils plus génériques et qui ne seront pas nécessairement adaptés au contexte d’une entreprise ou d’une organisation. »
Thiébaut Meyer, directeur stratégies de sécurité, Google Cloud.
un employé serait plus crédule face à un e- mail de phishing contenant des informations confidentielles seulement connues de lui et d’une poignée d’autres collaborateurs. Ce dernier exemple soulève d’ailleurs une autre problématique, celle de la mauvaise manipulation et de l’utilisation abusive de données sensibles. Un risque bien réel : dans un rapport de février 2023, l’éditeur de sécurité Cyberhaven avait, en effet, indiqué que 10,8 % des employés d’entreprise utilisant sa solution Cyberhaven, avaient utilisé CHATGPT sur leur lieu de travail et 8,6 % y avaient renseigné des données d’entreprise, dont certaines sensibles, du code source et des données clients. Les RSSI auront sans doute à coeur de former les collaborateurs aux meilleures pratiques en matière d’utilisation de LLM.
Un risque encore empirique ?
Mais pour l’heure, qu’en est- il vraiment ? Les attaquants se sont- ils saisis de ces outils ? Vincent Nguyen, directeur de la cybersécurité chez Stoïk, agence française de souscription d’assurance spécialisée sur le risque cyber, n’a pas « constaté d’attaques exploitant explicitement de l’intelligence artificielle » sur le portefeuille d’assurés de l’entreprise. « Toutefois, nous utilisons L’IA dans le cadre de certaines de nos activités de cybersécurité et créons à l’occasion des e- mails de phishing ( dans le cadre de campagnes de Red Teaming, NDLR). Et
Législation de L’IA : les premiers jets
Si les États- Unis sont restés relativement frileux en matière de législation, exception faite d’un décret donnant des orientations, le Parlement européen a adopté L’AI Act, mercredi 13 mars. Il s’agit du premier règlement au monde, véritablement contraignant, encadrant l’intelligence artificielle et ses usages. Le texte doit protéger des risques liés à l’intelligence artificielle ( IA) en matière de sécurité et de respect des droits fondamentaux. Le texte contient des dispositions relatives à la protection des données, aux règles sur les données servant à l’entraînement des modèles, entre autres. nous savons pertinemment que si nous le faisons, les attaquants le font aussi » , prévient Vincent Nguyen. L’expert nuance toutefois son propos, précisant que les attaquants n’ont pas besoin aujourd’hui d’utiliser de fonction avancée D’IA pour mener leurs attaques, dans la mesure où « ils n’ont pas attendu pour automatiser une partie de leur processus de création de Malware » .
Cela dit, si les exemples d’attaques dopées à L’IA ne sont pas légion, les experts s’accordent à dire que L’IA va bel et bien transformer la menace. Au- delà de la crédibilité renforcée des techniques d’ingénierie sociale, « les attaques seront plus véloces » , assure Eric Antibi, directeur technique chez Palo Alto Networks. Et déjà, certains signes ne trompent pas. Un rapport de l’équipe de recherche de cybersécurité de Palo Alto Networks, Unit42, s’est penché sur le temps que mettait une attaque perpétrée par les affiliés du fournisseur de ransomware en tant que service Black Basta, pour arriver à ses fins. « Sur des exemples concrets, ce laps de temps était d’environ quatorze heures sans IA » , indique Eric Antibi. Une durée qui pourrait être réduite à trois heures en utilisant des outils comme WORMGPT. « En temps normal, on estime qu’il s’écoule trente minutes avant qu’un utilisateur ne clique sur un lien de phishing. » Mais une fois corrigées les grossières erreurs de grammaire, de syntaxe et autres tournures de phrase alambiquées, « ce temps est divisé par trois » , avance Eric Antibi. Autre exemple édifiant : il s’écoulait en moyenne quarante- quatre jours entre l’intrusion dans un système d’information et le passage à l’action et un vol de données en 2021, un laps de temps descendu à trente jours en 2022… et à cinq en 2023. Eric Antibi craint que ce chiffre ne chute à quelques heures. Et de son avis, « l’automatisation et l’intelligence artificielle font forcément partie de l’équation » . C’est aussi le changement d’échelle qui inquiète le chercheur, les pirates étant désormais en mesure de générer plus rapidement des contenus malveillants de qualité à des échelles industrielles.
Des attaques déjà recensées
Le risque n’est certes pas généralisé, mais les premières attaques dopées à L’IA ont bien été observées. Dans le rapport « Naviguer dans les cybermenaces et renforcer les
défenses à l’ère de L’IA » , Microsoft et Openai ont détecté plusieurs groupes de cybercriminels utilisant des LLM. Forest Blizzard ( Strontium), entité associée au renseignement russe, les utilise pour effectuer des recherches afin d’automatiser ou d’optimiser leurs techniques de scripting ; Emerald Street, alias Thallium, pour affiner le ciblage d’organisations, rechercher des vulnérabilités et rédiger des e- mails de spear- phishing ; des hackers nord- coréens pour comprendre les caractéristiques d’une vulnérabilité CVE se rapportant à un outil de diagnostic matériel de Microsoft…
Le risque se cache également dans les modèles open source accessibles aux développeurs. L’équipe de recherche de Jfrog a ainsi découvert que des modèles D’IA sur la bibliothèque de modèles open source Hugging Face renfermaient du code malveillant et étaient utilisés comme vecteur d’attaque. Une fois téléchargés sur l’ordinateur du développeur, ils exécutent du code arbitraire, libérant ainsi leur charge utile, accordent un remote shell permettant aux attaquants de prendre le contrôle des machines compromises. « Cette infiltration silencieuse pourrait potentiellement donner accès à des systèmes internes critiques et ouvrir la voie à des violations de données à grande échelle, voire à l’espionnage d’entreprise » , a prévenu l’équipe de Jfrog.
Certains outils sont même ouvertement malveillants. L’exemple le plus connu est le LLM WORMGPT. Jumeau maléfique de CHATGPT, il s’appuie sur le modèle open source GPT- J, a été développé pour assister les cybercriminels dans leurs activités. Il passe outre les considérations éthiques et légales imposées à CHATGPT, Bard et consorts. Il peut ainsi répondre à toutes sortes
d’interrogations portant sur des malwares, des arnaques, des codes malveillants, générer des e- mails de phishing.
Les LLM, a priori sécurisés, ne sont pas non plus à l’abri. Sur des forums, des pirates partagent des requêtes et tactiques pour réaliser des attaques de prompt- injection contre les LLM ayant pignon sur rue, et en faire des assistants obéissants. Certaines attaques, dites par empoisonnement, visent à modifier le comportement d’une IA ( LLM, ML) en introduisant des données corrompues lors de sa phase d’entraînement et influencer ses prédictions. Ce type d’attaque peut être mené dans le but de neutraliser des systèmes de sécurité, introduire des vulnérabilités, des portes dérobées ou des biais qui pourraient compromettre la sécurité, l’efficacité ou le comportement éthique du modèle. Dans son document « Récit de l’année : impact de l’la sur la cybersécurité » , Kaspersky a d’ailleurs partagé des captures d’écran de cybercriminels sur des forums du Dark Web, partageant du code généré par GPT- 4, censé faciliter le traitement des données volées. L’éditeur rappelle toutefois qu’à l’heure actuelle, les performances des LLM sont « limitées » . « D’après notre expérience, ils ont tendance à halluciner lorsque les questions et les tâches dépassent un niveau très basique » , explique Kaspersky. Toutefois, Thiébaut Meyer nous met en garde : « il est crucial pour les équipes de sécurité de considérer la sécurité de L’IA, de comprendre le fonctionnement des modèles et d’anticiper les risques d’attaques visant à altérer les données d’entraînement. » Les systèmes D’IA, quels qu’ils soient, doivent être testés et mis à jour périodiquement. D’autant plus lorsque l’on est dans un paysage cyber qui évolue rapidement.
Deepfake plus vrai que nature
Contraction de « Deep Learning » et « Fake » , les deepfakes opèrent une synthèse de différents médias de manière à générer des trucages possiblement utilisables pour monter arnaques et fraudes. Oracle est revenu dans un article sur la genèse de cette technologie : le GAN, pour Generative Adversarial Networks. Derrière cette définition se cachent deux algorithmes qui s’entraînent et s’améliorent mutuellement. L’un travaille à fabriquer des faux aussi fiables que possible, l’autre tente de les détecter. Ces derniers mois, ces technologies semblent avoir atteint un degré de réalisme jusqu’ici inégalé. « En ajoutant la voix ou la vidéo, ces deepfakes nouvelle génération permettront de lancer des chaînes d’extorsion plus vraies que nature contre les entreprises privées » , estimait, dans ses prédictions 2024, Vade, société française spécialisée dans la conception et l’édition de solutions logicielles de sécurité des e- mails. Preuve par l’exemple : une récente arnaque en début d’année a coûté 25 millions de dollars à une multinationale hongkongaise. Un employé a été piégé par un e- mail de son directeur lui demandant de rejoindre une visioconférence. Méfiant dans un premier temps, la victime a suspecté une tentative de phishing. Elle a néanmoins été rassurée une fois connectée à la conférence, en voyant plusieurs de ses collègues… qui étaient en fait des deepfakes. Poussé par ses faux collègues, le salarié a effectué une quinzaine de transactions sur cinq comptes bancaires, pour un montant total de 200 millions de dollars de Hong Kong, soit l’équivalent de 25 millions de dollars US.
La défense, une IA bien installée
Les inquiétudes concernant les risques liés à L’IA sont réelles. Cela dit, la technologie est aussi l’affaire de défenseurs et ces derniers n’ont pas attendu l’avènement de la Gen AI pour se l’approprier, notamment à travers le Machine Learning ( ML) et être ainsi en mesure de détecter des programmes malveillants. Les applications du ML sont nombreuses en cybersécurité : identification et adaptation des schémas de données pour les rendre plus facilement analysables ; classification des données ; synthèse des possibilités ; identification des profils de sécurité des utilisateurs ; recommandations d’actions de correction…
Dans le cadre d’une remédiation à une cyberattaque, le ML facilite l’extraction des données d’une attaque, leur regroupement, la préparation pour analyse et la fourniture de rapports simplifiés recommandant des actions afin d’accélérer la prise de décision. Et alors que la plupart des outils dans le monde de la cyberdéfense sont exhaustifs, « presque 80 % des vulnérabilités qu’ils rapportent ne sont pas applicables pour des raisons techniques » , explique Fred Simon. L’IA fournit plus rapidement, et avec plus d’efficacité, une vision complète de la méthodologie que pourraient employer des cyberattaquants, et certifie de l’applicabilité ou non d’une faille — et donc si celle- ci représente un risque réel et doit faire l’objet d’un patch.
Bien que L’IA soit intégrée depuis des années dans de nombreuses solutions de cybersécurité, « la maîtrise n’est pas parfaite, beaucoup de systèmes ont des défauts et nous recevons quantité de faux positifs dans nos alertes EDR » , affirme Ayoub M., analyste chez Stoïk. Il s’agit en l’occurrence de bibliothèques suspectes qui, après contrôle, s’avèrent légitimes. Mais si d’aventure ladite bibliothèque embarque des techniques de cryptographie, L’IA peut les confondre avec des modules de chiffrement utilisés par les ransomwares.
Rationaliser l’investigation
« Nous utilisons L’IA dans le cadre de certaines de nos activités de cybersécurité, et nous créons à l’occasion des emails de phishing ( dans le cadre de campagne de Red Teaming NDLR).
Nous savons pertinemment que si nous le faisons, les attaquants le font aussi. »
Vincent Nguyen, directeur de la cybersécurité chez Stoïk.
Et les LLM dans tout ça ? Ils ajoutent une nouvelle couche d’intelligence dans la défense et renforcent l’efficacité des équipes. Comme expliqué plus haut, « l’outil ne doit pas se contenter de localiser et lister les CVE ( Common Vulnerabilities and Exposures, ndlr), mais doit établir des rapports, lister les actifs exposés en fonction du risque et expliciter les actions correctives à mettre en place » . À cette fin, Palo Alto Networks a, par exemple, intégré un LLM développé en interne dans sa plateforme de protection des applications cloud- native ( CNAPP) Prisma Cloud. À grand renfort de langage naturel, le LLM va lister les actifs exposés les plus à risque, avant de lancer des playbooks automatisés. Globalement, les grands modèles de langage ( LLM) auront, et ont déjà, un impact significatif sur la red team dans l’automatisation des tâches répétitives et fastidieuses, et dans la conduite de campagnes d’ingénierie sociale et de phishing convaincantes et personnalisées à grande échelle, une tâche qui aurait autrefois pris des heures voire des jours.