Qu'est-ce que la classification des données ou data classification ?

Le facteur humain 2022
Demander un entretien avec nos experts

Définition de la classification des données (data classification)

La classification des données ou data classification en anglais est une méthode permettant de définir et de catégoriser les fichiers et autres informations commerciales critiques. Elle est principalement utilisée dans les grandes entreprises pour mettre en place des systèmes de sécurité respectant des directives de conformité strictes, mais elle peut également être utilisée dans les petits environnements.

L'utilisation la plus importante de la classification des données est la compréhension de la sensibilité des informations stockées, afin que pouvoir mettre en place les outils de cybersécurité, les contrôles d'accès et la surveillance appropriés.

La classification des données est le processus de catégorisation des actifs de données en fonction de la sensibilité de l'information. En classifiant les données, les organisations peuvent déterminer deux choses essentielles :

  • Qui doit être autorisé à y accéder.
  • Quelles politiques de protection appliquer lors de leur stockage et de leur transfert.

La classification peut également aider à déterminer les normes réglementaires applicables pour protéger les données. Globalement, la classification des données aide les organisations à mieux gérer leurs données en matière de confidentialité, de conformité et de cybersécurité.

La formation à la cybersécurité commence ici

Démarrer l'évaluation gratuite

Votre évaluation gratuite fonctionne comme suit :

  • Prenez rendez-vous avec nos experts en cybersécurité afin qu'ils évaluent votre environnement et déterminent votre exposition aux menaces.
  • Sous 24 heures et avec une configuration minimale, nous déployons nos solutions pour une durée de 30 jours.
  • Découvrez nos technologies en action !
  • Recevez un rapport mettant en évidence les vulnérabilités de votre dispositif de sécurité afin que vous puissiez prendre des mesures immédiates pour contrer les attaques de cybersécurité.

Remplissez ce formulaire pour demander un entretien avec nos experts en cybersécurité.

Un représentant de Proofpoint vous contactera sous peu.

Raisons de procéder à la classification des données

Toute organisation doit classer les données qu'elle crée, gère et stocke. Mais cette pratique est d’autant plus importante pour les grandes entreprises, puisque ces dernières disposent de données réparties sur de nombreux sites, y compris dans le cloud.

Les administrateurs doivent suivre et auditer ces informations pour s'assurer qu'elles bénéficient des contrôles d'authentification et d'accès appropriés. La classification des données permet aux administrateurs d'identifier les emplacements qui stockent des données sensibles et de déterminer comment y accéder et les partager.

La classification est une première étape essentielle pour répondre à presque tous les mandats de conformité des données. HIPAA, GDPR, FERPA et d'autres organes directeurs réglementaires exigent que les données soient étiquetées afin que les contrôles de sécurité et d'authentification puissent en limiter l'accès.

L'étiquetage des données permet de les organiser et de les sécuriser. L'exercice permet également de réduire les données dupliquées inutilement, de réduire les coûts de stockage, d'augmenter les performances et de garder la possibilité de les suivre lorsqu'elles sont partagées.

La classification des données est la base de politiques de protection des données et de règles de prévention des pertes de données (DLP) efficaces. Pour des règles DLP efficaces, vous devez d'abord classer vos données afin de vous assurer que vous connaissez les données stockées dans chaque fichier.

Types de catégorisation des données

Toute donnée stockée peut être classée en catégories : c’est ce qu’on appelle la data catégorisation.

Pour classer vos données, vous devez vous poser plusieurs questions au fur et à mesure que vous les découvrez et que vous les examinez. Utilisez les exemples de questions suivants lorsque vous examinez chaque section de vos données :

  • Quelles informations stockez-vous pour les clients, les employés et les fournisseurs ?
  • Quels types de données l'organisation crée-t-elle lorsqu'elle génère un nouvel enregistrement ?
  • Quel est le degré de sensibilité des données sur une échelle numérique (par exemple, de 1 à 10, 1 étant le plus sensible) ?
  • Qui doit accéder à ces données pour poursuivre des opérations productives ?

 

À l'aide de ces questions, vous pouvez vaguement définir des catégories pour vos données, notamment :

  • Haute sensibilité : Ces données doivent être sécurisées et surveillées pour les protéger des menaces. Elles relèvent souvent des règlements de conformité en tant qu'informations nécessitant des contrôles d'accès stricts qui minimisent également le nombre d'utilisateurs pouvant accéder aux données.
  • Sensibilité moyenne : Les fichiers et les données qui ne peuvent pas être divulgués au public, mais pour lesquels une violation des données ne constitue pas un risque important. Ils nécessitent des contrôles d'accès comme les données à haute sensibilité, mais un plus grand nombre d'utilisateurs peuvent y accéder.
  • Faible sensibilité : Ces données sont généralement des informations publiques qui ne nécessitent pas beaucoup de sécurité pour les protéger d'une violation de données.

Méthodes de classification des données

La classification des données travaille en étroite collaboration avec d'autres technologies pour mieux protéger et gouverner les données. Si l'organisation est victime d'une violation de données, la classification des données aide les administrateurs à identifier les données perdues et, éventuellement, à retrouver le cybercriminel.

Voici les technologies qui reposent sur la classification des données :

  • La gestion de l'accès aux identités (IAM) : Les outils IAM permettent aux administrateurs de déterminer qui et quoi peut accéder aux données. Les utilisateurs ayant des autorisations similaires peuvent être regroupés. Les groupes reçoivent des niveaux d'autorisation et sont gérés comme une seule unité. Lorsqu'un utilisateur quitte l'entreprise, il peut être retiré du groupe, ce qui élimine toutes les autorisations pour cet utilisateur. Ce type de regroupement et d'organisation rationalise la gestion des autorisations sur le réseau.
  • Chiffrement des données : Certaines ressources de données doivent être chiffrées au repos et en mouvement. Les données “au repos” sont celles qui sont stockées - généralement sur un disque dur - sur n'importe quel dispositif de stockage. Les données “en mouvement” sont celles qui sont transférées sur un réseau. Le chiffrement des données les rend illisibles lorsque les attaquants les interceptent.
  • Automatisation : L'automatisation fonctionne avec les outils de surveillance pour trouver, classer et étiqueter les données en vue d'un examen administratif. Certains outils intègrent l'intelligence artificielle (IA) et l'apprentissage automatique (ML) pour détecter, étiqueter et classer les données automatiquement. Ces technologies peuvent également aider à identifier les menaces qui pourraient être utilisées pour les voler. Avec des données étiquetées, les administrateurs peuvent utiliser IAM pour appliquer des autorisations et empêcher des menaces spécifiques d'accéder aux données stockées.
  • Analyse judiciaire des données : La criminalistique est le processus qui consiste à identifier ce qui a mal tourné et qui a violé le réseau. Après une violation de données, elle recueille et préserve les preuves en vue d'une enquête ultérieure. L'investigation des données est généralement un processus en deux parties. Les outils d'automatisation collectent d'abord les données, puis un analyste humain identifie les anomalies et enquête.

Niveaux de classification des données

En vous posant ces questions, vous pouvez vous constituer une idée de comment classer vos données.

La data classification peut généralement être divisée en quatre catégories :

Données publiques

Ces données sont accessibles au public, soit localement, soit sur Internet.

Les données publiques nécessitent peu de sécurité, et leur divulgation n'entraînerait pas de violation de la conformité.

Données internes uniquement

Les mémos, la propriété intellectuelle et les messages électroniques sont quelques exemples de données qui doivent être réservées aux employés internes.

Données confidentielles

La différence entre les données internes et les données confidentielles est que les données confidentielles nécessitent une autorisation pour y accéder.

Vous pouvez attribuer cette autorisation à des employés spécifiques ou à des fournisseurs tiers autorisés.

Données restreintes

Les données restreintes font généralement référence à des informations gouvernementales auxquelles seules les personnes autorisées peuvent accéder.

La divulgation de données restreintes peut entraîner des dommages irréfutables aux revenus et à la réputation de l'entreprise.

S’aligner sur une liste d’actifs

Avant de commencer une révision de la classification des données, Proofpoint et votre organisation doivent être sur la même longueur d'onde.

Au début de la révision, Proofpoint et votre organisation créent une liste d'actifs pour définir vos catégories d'activités. Par exemple, vous pouvez avoir des fichiers qui stockent des données technologiques, financières et clients. La définition des catégories permet d'aligner vos exigences de sécurité sur vos données.

Cette étape consiste également à appliquer les niveaux de classification des données définis dans la section précédente. Pour chaque catégorie, vous aurez probablement des niveaux de classification différents pour chaque groupe de fichiers. Cette première étape jette les bases de l'ensemble du processus de classification des données.

Processus de classification des données

Lorsque vous décidez qu'il est temps de classifier les données pour répondre aux normes de conformité, la première étape consiste à mettre en place des procédures pour faciliter la localisation des données, leur classification et la détermination de la cybersécurité appropriée pour les protéger.

L'exécution de chaque procédure dépend des normes de conformité de votre organisation et de l'infrastructure qui sécurise le mieux les données. Les étapes générales de classification des données sont les suivantes :

  • Effectuer une évaluation des risques : Une évaluation des risques détermine la sensibilité des données et identifie la manière dont un attaquant pourrait violer les défenses du réseau.
  • Développer des politiques et des normes de classification : Si vous générez des données supplémentaires à l'avenir, une politique de classification permet de rationaliser un processus reproductible, ce qui facilite la tâche des membres du personnel tout en minimisant les erreurs dans le processus.
  • Catégoriser les données : Une fois l'évaluation des risques et les politiques en place, classez vos données en fonction de leur sensibilité, des personnes autorisées à y accéder et des éventuelles sanctions en cas de divulgation publique.
  • Trouver le lieu de stockage de vos données : Avant de pouvoir déployer les bonnes défenses de cybersécurité, vous devez savoir où sont stockées les données. L'identification des lieux de stockage des données permet de déterminer le type de cybersécurité nécessaire pour protéger les données.
  • Identifier et classer vos données : Une fois les données identifiées, vous pouvez maintenant les classer. Des logiciels tiers vous aident dans cette étape pour faciliter la classification des données et leur suivi.
  • Déployer des contrôles : Les contrôles que vous mettez en place doivent exiger des demandes d'authentification et d'autorisation d'accès de la part de chaque utilisateur et ressource qui doit accéder aux données. L'accès aux données doit se faire sur la base du “besoin de savoir”, ce qui signifie que les utilisateurs ne doivent recevoir un accès que s'ils ont besoin de voir les données pour accomplir une fonction professionnelle.
  • Contrôler l'accès et les données : La surveillance des données est une exigence pour la conformité et la confidentialité de vos données. Sans surveillance, un attaquant pourrait disposer de plusieurs mois pour exfiltrer des données du réseau. Les contrôles de surveillance appropriés permettent de détecter les anomalies et de réduire le temps nécessaire pour détecter, atténuer et éradiquer une menace du réseau.

Rationalisation du processus de classification des données

Bien que vous puissiez rationaliser le processus de classification des données et même en automatiser une partie, le processus nécessite toujours des éléments de révision humaine et des procédures manuelles.

Les systèmes automatisés suggèrent l'étiquetage et la classification, mais un examen humain détermine si ces étiquettes sont correctes. Les objectifs et les normes doivent être exposés et définis, ce qui nécessite des réviseurs humains et du personnel informatique.

Les outils automatisés signalent les actifs numériques pour un examen humain. La liste affiche les objets (tels que les données concernant un client donné) et les règles (telles que HIPAA ou PCI-DSS) qui s'appliquent à chacun. Certains outils d'automatisation peuvent indexer les objets (L'indexation est un processus de tri et d'organisation des données pour permettre une recherche rapide et efficace sur le réseau).

D'autres politiques s'appliquent également pendant le processus de classification des données. Le règlement général sur la protection des données (RGPD) est un règlement de l'UE qui donne aux consommateurs le droit de faire supprimer leurs données.

Les organisations doivent s'y conformer lorsqu'elles stockent des données de consommateurs dans l'UE. Certains outils de classification des données indexent les objets afin qu'ils puissent être rapidement supprimés lorsque les clients le demandent.

Exemples de data classification

L'une des étapes les plus difficiles de la classification des données est la compréhension des risques.

Les normes de conformité supervisent la plupart des données sensibles privées, mais les organisations adhèrent aux règles de conformité applicables aux différentes données stockées dans les fichiers et les bases de données.

Voici quelques exemples de sensibilité des données qui pourraient être classées comme élevées, moyennes et faibles.

  • Sensibilité élevée : Supposons que votre entreprise recueille des numéros de carte de crédit comme mode de paiement auprès des clients qui achètent des produits. Ces données doivent faire l'objet de contrôles d'autorisation stricts, d'un audit pour détecter les demandes d'accès et d'un cryptage lors du stockage et de la transmission des données. Une violation des données serait susceptible de causer un préjudice à la fois au client et à l'organisation. Elles doivent donc être classées comme très sensibles et faire l'objet de contrôles stricts en matière de cybersécurité.
  • Sensibilité moyenne : Pour chaque fournisseur tiers, vous avez un accord et un contrat signé. Ces données ne porteraient pas préjudice aux clients, mais il s'agit tout de même d'informations sensibles décrivant des détails commerciaux. Ces fichiers pourraient être considérés comme moyennement sensibles.
  • Faible sensibilité : Les données destinées à la consommation publique pourraient être considérées comme peu sensibles. Par exemple, le matériel de marketing publié sur votre site ne nécessiterait pas de contrôles stricts puisqu'il est accessible au public et a été créé pour un public général.

Utilisation de l'intelligence artificielle (IA) pour la classification des données

La classification des données nécessite une interaction humaine, mais une grande partie du processus peut être automatisée. Pour ajouter l'automatisation aux capacités de prise de décision, Proofpoint a créé un moteur de classification des données qui offre une précision de 99 % dans ses prédictions.

L'automatisation de l'IA permet aux entreprises d'identifier, de classer et de protéger leurs documents en permanence, ce qui signifie que le moteur analyse et examine continuellement les nouveaux documents à mesure qu'ils sont ajoutés à l'environnement.

Proofpoint équilibre les examens humains avec la classification basée sur l'IA. Le module d'apprentissage actif ingère environ 20 documents par catégorie pour lancer le processus et améliorer la précision.

Le moteur de classification des données utilise des modèles d'apprentissage automatique pour reconnaître les modèles. Chaque groupe de fichiers doit être diversifié afin que les algorithmes d'apprentissage automatique aient une meilleure précision.

Les modèles d'apprentissage automatique prédisent des étiquettes pour les documents et déterminent la précision de leurs prédictions. Un “niveau de confiance” est montré à un réviseur afin de réévaluer les données du modèle pour une autre série de classification de l'information.

Si le modèle indique que la précision est faible, les réviseurs humains peuvent mettre à jour les modèles pour avoir des ensembles de fichiers plus diversifiés afin d'améliorer la précision. Le moteur se reconvertit en exploitant les nouvelles informations pour obtenir de nouveaux résultats optimaux.

Proofpoint a conçu son moteur de manière à ce qu'il soit basé sur l'accès aux documents. Ainsi, il n'attribue aux utilisateurs des autorisations d'accès qu'aux fichiers nécessaires à l'exercice de leurs fonctions.

Le logiciel de classification des données alimenté par l'IA de Proofpoint réduit une grande partie des frais généraux d'un processus qui pourrait prendre des mois. Il analyse automatiquement tous vos fichiers, identifie le contenu des fichiers, attribue la catégorie et les niveaux de classification appropriés, puis vous permet de déterminer la sécurité de sauvegarde adéquate.

Importance de la data classification

Le niveau de sensibilité des données détermine la manière dont vous allez les traiter et les protéger.

Même si vous savez que les données sont importantes, vous devez évaluer les risques qui y sont associés.

La data classification vous aide à découvrir les menaces potentielles et à déployer les solutions de cybersécurité les plus avantageuses pour votre entreprise.

En attribuant des niveaux de sensibilité et en catégorisant les données, vous comprenez mieux les règles d'accès entourant les données critiques. Vous pouvez mieux surveiller les données pour détecter d'éventuelles violations de données et, surtout, rester en conformité.

Les directives de conformité vous aident à déterminer les contrôles de cybersécurité appropriés, mais vous devez d'abord effectuer une évaluation des risques et classer les données.

Dans de nombreux cas, les organisations ont besoin d'une tierce partie pour les aider à classifier les données afin que le déploiement de la cybersécurité puisse être exécuté plus efficacement.

Meilleures pratiques en matière de classification des données

Le respect des meilleures pratiques de classification des données rend la création d'une politique et l'ensemble du processus beaucoup plus efficaces. Les meilleures pratiques définissent les étapes à suivre pour indexer et étiqueter complètement les actifs numériques afin qu'aucun ne soit négligé ou mal géré.

Les organisations devraient suivre ces meilleures pratiques :

  • Identifier soigneusement où se trouvent toutes les données sensibles, y compris la propriété intellectuelle, dans tous les lieux de stockage.
  • Définir des catégories de données afin que les données sensibles puissent être étiquetées et dotées des bonnes autorisations. Les catégories doivent être granulaires afin que les autorisations puissent également être granulaires. Les catégories doivent également permettre aux administrateurs de classer les données dans des groupes.
  • Identifier les données les plus critiques et les plus sensibles. Les outils d'automatisation peuvent alors les étiqueter avec la classification correcte et les mandats réglementaires.
  • Former les employés afin qu'ils comprennent comment traiter les données sensibles. Donnez-leur les outils dont ils ont besoin pour protéger les données sensibles et suivre les pratiques de cybersécurité.
  • Passer en revue toutes les normes réglementaires afin que les règles soient respectées et que les sanctions soient évitées.
  • Élaborer des politiques qui permettent aux utilisateurs d'identifier les données mal classées ou non classées et de régler le problème.
  • Utiliser l'IA lorsque vous pouvez améliorer la précision et accélérer le processus de classification des données.

Prêt à essayer Proofpoint ?

Commencez par un essai gratuit de Proofpoint.