Connect light

Entraînement de vos dragons LLM – Pourquoi la DSPM est la clé de la sécurité de l’IA

Share with your network!

Le potentiel transformateur de l’IA n’a pas que des avantages. L’IA étant complexe et reposant sur des données sensibles, elle représente une cible de choix pour les cybercriminels. Deux implémentations d’IA en particulier — les grands modèles de langage (LLM) personnalisés et les outils comme Microsoft Copilot — présentent des défis uniques pour la plupart des entreprises.

Les LLM personnalisés ont souvent besoin d’être entraînés intensivement à l’aide des données d’une entreprise, ce qui crée un risque que les données soient incorporées dans des modèles. De son côté, Microsoft Copilot est intégré aux applications et processus d’entreprise. Dès lors, s’il n’est pas gouverné correctement, des données personnelles, financières et propriétaires pourraient être exposées.

Pour prévenir l’exposition de données et assurer leur conformité, les entreprises doivent adopter une approche solide de la sécurité en ce qui concerne leurs implémentations d’IA. Vous trouverez ci-dessous quelques conseils pour sécuriser les LLM et les outils d’IA tels que Copilot, ainsi que des informations sur la façon dont la gestion de la posture de sécurité des données (DSPM) peut vous aider.

Qu’est-ce que la DSPM et pourquoi est-elle essentielle pour les implémentations d’IA ?

La gestion de la posture de sécurité des données (DSPM) est à la fois une stratégie et un ensemble d’outils. Son rôle est d’identifier, de classer et de surveiller les données stratégiques et sensibles ainsi que les accès des utilisateurs, que ce soit dans le cloud ou dans les environnements sur site d’une entreprise.

Pour les implémentations d’IA telles que les LLM personnalisés et Microsoft Copilot, la DSPM est primordiale pour assurer la gouvernance correcte des données sensibles ou réglementées. Elle réduit en effet le risque de fuite ou d’utilisation inappropriée des données.

Voici quelques menaces clés pour les implémentations d’IA :

  • Attaques par injection d’invites. Des invites habilement conçues peuvent inciter des modèles à divulguer indirectement des données sensibles, permettant ainsi aux cybercriminels de contourner les mesures de sécurité traditionnelles.
  • Empoisonnement des données d’entraînement. Les cybercriminels peuvent incorporer des données sensibles ou biaisées dans des ensembles d’entraînement, conduisant ainsi les modèles à générer des résultats contraires à l’éthique ou non sécurisés.
  • Fuites de données dans les résultats. Des modèles mal configurés peuvent exposer involontairement des données privées pendant des interactions utilisateur ou dans leurs résultats.
  • Problèmes de conformité. Les systèmes d’IA qui traitent les données réglementées de manière inappropriée risquent de lourdes amendes en vertu de réglementations telles que le RGPD, la loi CCPA ou la loi HIPAA. Ils perdent alors la confiance des clients.

Cas d’utilisation n° 1 : sécurisation des LLM personnalisés

Les LLM personnalisés permettent aux entreprises d’adapter les modèles d’IA à leurs besoins métier, mais ils génèrent également des risques importants. Des données sensibles peuvent être incorporées dans le modèle pendant l’entraînement ou par le biais d’autres interactions, ce qui peut entraîner la divulgation involontaire de données.

Les LLM personnalisés peuvent engendrer les risques suivants :

  • Incorporation de données sensibles dans des modèles pendant l’entraînement
  • Fuites de données involontaires dans les résultats de modèles
  • Problèmes de conformité liés au traitement inapproprié de données réglementées, comme des données personnelles
  • Vulnérabilités de sécurité provoquant l’empoisonnement des données d’entraînement ou des attaques par injection d’invites

Ces risques soulignent l’importance de réaliser un audit des données d’entraînement, de surveiller les flux de données et d’appliquer des contrôles d’accès stricts.

Conseils pour sécuriser les LLM personnalisés

1. Vérifiez les données d’entraînement et nettoyez-les

  • Examinez régulièrement les ensembles de données. Identifiez les données sensibles ou réglementées avant de les utiliser pour l’entraînement.
  • Anonymisez les données au moyen de techniques de masquage ou de chiffrement. Cela contribuera à protéger les données personnelles et d’autres données critiques.

2. Surveillez le flux des données

  • Utilisez des outils comme Proofpoint pour déterminer le flux suivi par les données, depuis leur ingestion jusqu’à l’entraînement des modèles et aux résultats.
  • Assurez la traçabilité pour préserver la conformité et corriger rapidement les vulnérabilités.

3. Définissez des contrôles d’accès stricts

  • Accordez des autorisations basées sur les rôles aux scientifiques des données et aux ingénieurs qui interagissent avec des ensembles de données d’entraînement.
  • Limitez l’accès aux ensembles de données sensibles aux personnes qui en ont vraiment besoin.

4. Surveillez les résultats de façon proactive

  • Analysez les réponses des modèles pour vous assurer qu’aucune donnée sensible n’est divulguée. Cette étape est particulièrement importante après les mises à jour ou les cycles de réentraînement.

Comment Proofpoint peut vous aider

La solution Proofpoint DSPM peut identifier automatiquement les données sensibles dans les environnements cloud et les classer. Vous bénéficiez ainsi d’une visibilité totale sur les sources de données structurées et non structurées.

Proofpoint offre une vue complète du flux des données. Cette vue illustre la circulation des données sensibles à différentes étapes, y compris leur provenance, leur connexion aux ensembles de données, leur participation aux pipelines d’entraînement et leur intégration aux modèles d’IA personnalisés. Cette vue détaillée vous permet de retracer le mouvement des données sensibles, de préserver votre conformité à des réglementations comme le RGPD et la loi CCPA, ainsi que d’établir une relation de confiance avec vos utilisateurs.

En outre, Proofpoint vous avertit de façon proactive si des données sensibles sont utilisées de manière inappropriée — que ce soit dans des données d’entraînement, des réponses de modèles ou des interactions utilisateur. Par conséquent, les risques potentiels peuvent être éliminés immédiatement.

Cas d’utilisation n° 2 : réduction des risques dans Microsoft Copilot

Microsoft Copilot fournit des réponses précises et contextuellement pertinentes via un processus appelé grounding, ou ancrage. En accédant à Microsoft Graph et à l’index sémantique, le grounding extrait du contexte de vos applications pour générer des invites plus spécifiques et personnalisées pour ses LLM. Si la qualité des réponses est améliorée, les risques de fuite ou d’utilisation inappropriée des données augmentent également.

Les implémentations de Copilot engendrent les risques suivants :

  • Fuites de données si des fichiers ou des emails sensibles sont gouvernés de manière incorrecte
  • Utilisation inappropriée de données confidentielles si les contrôles d’accès basés sur les rôles sont inadéquats
  • Exposition de données réglementées si les étiquettes de confidentialité ne sont pas appliquées de façon systématique

Conseils pour sécuriser les implémentations de Copilot

1. Appliquez des étiquettes de confidentialité

  • Associez des étiquettes Microsoft Information Protection (MIP) aux données sensibles pour vous assurer que l’accès est correctement restreint.
  • Attribuez des étiquettes de façon systématique aux fichiers et applications afin de gouverner les données auxquelles Copilot peut accéder.

2. Utilisez des sources de données approuvées

  • Envisagez d’utiliser une sélection de sites SharePoint ou d’ensembles de données approuvés pour Copilot afin de réduire l’exposition de données non validées.
  • Assurez-vous que tous les ensembles de données inclus sont dénués de tout contenu sensible ou réglementé.

3. Surveillez le comportement des invites et les résultats

  • Journalisez et analysez les invites afin d’identifier tout comportement inhabituel ou malveillant.
  • Utilisez des outils pour surveiller les résultats de Copilot et marquer les données sensibles en temps réel.

4. Limitez l’accès selon le rôle

  • Configurez l’accès de Copilot de sorte qu’il soit basé sur les rôles des utilisateurs et que les collaborateurs ne voient que les données pertinentes pour leurs responsabilités.

Comment Proofpoint peut vous aider

Proofpoint DSPM s’intègre parfaitement aux étiquettes MIP. Proofpoint peut ainsi associer les catégories de données identifiées aux étiquettes de confidentialité existantes, ce qui améliore la façon dont les données sensibles sont classées et gouvernées. Cela garantit également que les contrôles d’accès et les exigences de conformité sont appliqués de façon systématique dans les environnements.

Proofpoint identifie les risques potentiels associés aux résultats sensibles, comme les données identifiées via des interactions Copilot. En analysant les flux de données sensibles et en surveillant les résultats, Proofpoint peut détecter et avertir les équipes lorsqu’une tentative d’accès n’est pas autorisée, même si elle a lieu dans le cadre d’un scénario sophistiqué, comme une invite non autorisée.

Proofpoint vous permet d’adopter une approche proactive de la sécurisation des données. Par conséquent, vous pouvez assurer une gouvernance solide des données pour tous vos outils optimisés par l’IA.

Conseils pour créer un cadre d’IA sécurisé

Quel que soit le cas d’utilisation, une approche proactive et multicouche est essentielle pour sécuriser l’infrastructure d’IA. Voici un résumé des cinq étapes à suivre :

  1. Identifiez et classez les données sensibles. Utilisez des outils automatisés pour identifier les données personnelles, les éléments de propriété intellectuelle et les données réglementées dans vos environnements cloud et sur site.
  2. Assurez une visibilité sur la traçabilité des données. Déterminez le flux suivi par les données sensibles, depuis leur ingestion jusqu’à l’entraînement des modèles et au-delà.
  3. Définissez des contrôles d’accès basés sur les rôles. Limitez l’accès aux données sensibles et assurez-vous que les autorisations sont alignées sur les responsabilités de vos collaborateurs.
  4. Vérifiez les données et anonymisez-les. Nettoyez les ensembles de données d’entraînement et assurez-vous qu’aucune donnée sensible n’est divulguée dans les résultats.
  5. Surveillez les interactions en continu. Surveillez les saisies utilisateur, les invites des modèles et les résultats pour identifier et réduire les risques dès leur apparition.

Proofpoint permet de réduire les risques de sécurité associés à l’IA

L’IA est un outil transformateur. Toutefois, comme elle repose sur des données sensibles, elle présente des défis uniques pour les équipes de sécurité. En adoptant une approche structurée de la sécurisation de l’infrastructure d’IA, vous pouvez exploiter tout le potentiel des LLM personnalisés et d’outils comme Copilot, et ce sans compromettre l’intégrité de vos données, enfreindre des règles de conformité ni perdre la confiance des clients.

Proofpoint DSPM aide les entreprises à sécuriser leur infrastructure d’IA de diverses manières :

  • En identifiant et en classant automatiquement les données sensibles dans les environnements cloud et sur site
  • En déterminant le flux suivi par les données afin que vous puissiez voir comment elles entrent dans les systèmes d’IA et en sortent
  • En s’intégrant à des outils tels que les étiquettes MIP pour une gouvernance des données améliorée
  • En identifiant les risques de façon proactive et en avertissant les équipes des accès non autorisés ou de l’utilisation de données sensibles

Pour en savoir plus sur ces stratégies, et découvrir comment Proofpoint peut vous aider grâce à des démonstrations en direct, regardez le webinaire complet : « Training Your LLM Dragons: Why DSPM is Foundational for Every AI Initiative ».