Le fait que la donnée soit l’or noir du XXIe siècle n’est un secret pour personne. Le fait qu’elle soit de plus en plus exposée (ouverture des API, migration vers des applications SaaS comme O365 ou Salesforce, shadow IT, etc.) et donc à risque, ne l’est pas non plus.
La question n’est donc plus de savoir si la donnée peut fuiter (intentionnellement ou non) et être exfiltrée, mais plutôt de savoir comment la sécuriser afin de limiter les impacts en cas de fuite.
Dans ce contexte, les modèles de sécurité doivent s’adapter. Celui du château-fort est largement dépassé, celui de l’aéroport est en passe de l’être. Il devient alors nécessaire d’avoir une protection centrée sur la donnée (ou data-centric). Cette protection doit de plus répondre aux exigences d’expérience utilisateurs des métiers qui rechignent à être impactés dans leurs utilisations quotidiennes.
2 typologies de données distinctes … qui nécessitent une approche différente
Les grands projets de protection de la donnée lancés au sein des grands comptes se sont tous confrontés au même problème : comment connaître le niveau de sensibilité d’une information ? La réponse à cette question est fondamentale car elle est nécessaire pour appliquer un niveau de protection pertinent et éviter les fuites de données.
Il existe aujourd’hui deux typologies de données :
- Les données structurées désignent l’ensemble des informations répondant à un type de format et aisément identifiable en tant que tel : un champ CRM, numéro de sécurité sociale, formulaire Cerfa, adresse mail, ainsi que tout autre donnée pouvant être exprimées sous forme d’expressions régulières (1). Il s’agit communément des informations que l’on retrouve dans les bases de données des applications.
- Les données non structurées, à l’opposé des données non structurées, peuvent prendre n’importe quel type de format (document Office, PDF, image, vidéo, musique, fichier d’une application métier, etc.). Il est à noter qu’une donnée qui au premier abord serait considérée comme structurée (ex : champ téléphone d’un CRM), pourrait ne pas l’être si le respect de la syntaxe n’est implémenté.
Alors qu’il est aisé d’identifier automatiquement une donnée structurée, et d’en décrire la sensibilité selon des grilles prédéfinies ; la problématique est d’un tout autre ordre dans le cas des données non structurées, ces dernières représentant pourtant la plus grande part des données produites quotidiennement par les collaborateurs. Cela se traduit concrètement par l’incapacité des outils de sécurité (ex : Data Loss Prevention ou DLP) à repérer toute fuite ou manipulation suspecte d’informations vitales.
La classification des données non structurées apparaît alors comme la pierre angulaire d’une stratégie de protection de la donnée, via une action manuelle de la part de l’utilisateur final.
Qu’est-ce que la classification ?
Le sujet de la « classification de la donnée » regroupe l’ensemble des processus techniques et organisationnels permettant de catégoriser l’information produite par les collaborateurs d’une organisation. Suivant la catégorisation établie – par niveau de sensibilité (ex : interne, confidentiel, secret, etc.) ou par métiers concernés (ex : RH, R&D, achat, etc.) – la classification permettra de faire rentrer la donnée dans un cadre réglementaire, législatif ou de sécurité.
Historiquement très basiques (case à cocher dans un en-tête ou sur la première page d’un document ou ajout manuel de métadonnées), les solutions de classification se consolident et responsabilisent l’utilisateur en le plaçant au cœur du processus ; lui proposant ainsi une expérience améliorée (interface simple et conseils).
En pratique, les outils de classification offrent des fonctionnalités diverses :
- Pour les nouveaux fichiers, classification à la main de l’utilisateur ou déterminée automatiquement selon des règles prédéfinies (ex : présence de X numéros de sécurité sociales) ;
- Pour les fichiers existants, scan manuel des fichiers présents sur les répertoires locaux ou on-premise selon des règles prédéfinies ;
- Ajout sur le fichier de métadonnées (ou tagging) : ces métadonnées, interprétables par des outils tiers, permettent de donner de visibilité aux outils de supervision, type Data Loss Prevention ;
- Ajout d’éléments de marquage visuels (en tête, pied de page, filigrane) pour sensibiliser les utilisateurs finaux.
Des résultats peu probants à ce jour pour les projets de classification
Bien que les filières RSSI soient sensibles au sujet de la classification et des données et que le sujet soit inscrit au cœur des politiques de la majorité des grandes entreprises – obligation renforcée par les récentes règlementations comme le GDPR ou la LPM qui requièrent de cartographier les données et les usages – peu d’organisations, en dehors des établissement bancaires, ont réussi à mettre en place une stratégie efficace de classification.
Plusieurs raisons peuvent expliquer cette lacune :
- Les utilisateurs finaux n’ont généralement pas la connaissance de la nature des données sensibles ou de leur impact : alors que le niveau de classification le plus élevé (« C4 », « Secret », « Confidentiel », etc.) correspond aux documents susceptibles de mettre en péril une entité voire le Groupe tout entier – ce qui correspond à habituellement 1% des informations – cette proportion avoisine les 10% dans certaines entités. A l’inverse, il n’est pas rare qu’un utilisateur partage des fichiers contenant des données à caractères personnel sensibles ou des fichiers de mot de passe sans aucun niveau de classification ni aucune protection.
Ainsi, tout projet de classification des données nécessite un fort accompagnement au changement des utilisateurs finaux avec des messages clairs et des exemples concrets, lui permettant de classifier aisément ses informations. Des rappels récurrents seront également nécessaires pour rappeler les bonnes pratiques. En effet, un utilisateur manipulant au quotidien des données sensibles, pourrait ne plus se rendre compte de l’impact de la divulgation de celles-ci. - Faute de mettre à disposition de ses utilisateurs des moyens suffisamment ergonomiques, une entreprise ne peut s’attendre à des résultats probants. L’expérience montre en effet que les cases à cocher avec les niveaux de classification dans les pages de garde, les en-têtes ou les pieds de pages ne sont que très peu sélectionnées.
- La classification de l’ensemble des données de l’entreprises est un projet de transformation à part entière, et nécessite un fort engagement des équipes métiers et de la direction si on souhaite la généraliser. Cet engagement doit être d’autant plus important si la stratégie de classification définie impacte les utilisateurs (obligation de classifier les documents, de chiffrer, etc.).
Le retour de la classification sur le devant de la scène
Toutefois, la thématique revient en force au sein des grands comptes, poussée par les programmes de transformation digitale – qui nécessitent de repenser la protection des données – et par les acteurs du marché – qui consolident leurs offres autour du sujet. Certains analystes comme le Gartner, anticipent même le regroupement des solutions de protection de la donnée en une unique solution centrée sur la classification.
Afin d’être un succès, il sera opportun d’allier sensibilisation et ergonomie, afin d’embarquer les utilisateurs finaux dans cette démarche. L’un ne pourra pas aller sans l’autre.
Nous étudierons dans un prochain article comment le marché évolue autour d’acteurs de la sécurité historiques et comment la mise en place d’une stratégie efficace de classification apporte des bases solides pour (re)donner un nouveau souffle à la thématique de la protection des données.
(1) Une expression régulière, est une chaîne de caractères, répondant à une syntaxe précise. Par exemple, un numéro de téléphone française peut prendre l’un des trois formats suivants : 0123456789, +33123456789 ou 0033123456789.