La CDP, vraiment indispensable ?

La CDP, vraiment indispensable ?

Si l’on s’en réfère à la définition donnée par Gartner, la CDP “est une technologie marketing qui permet d’unifier les données clients en provenance du marketing et de tous les autres canaux afin de construire des profils clients et d’optimiser le timing et le ciblage des messages et des offres ».
Il s’agit donc d’une plateforme qui permet :

– De réunir la donnée client en provenance de différentes sources (web, mobile, CRM, social media, e-commerce etc.)

Gouvernance data : centraliser ou décentraliser ?

Gouvernance data : centraliser ou décentraliser ?

La data est une ressource de plus en plus maîtrisée et exploitée par les entreprises. Le cloisonnement de la donnée tend à disparaître chez les organisations. Gouverner et structurer la data devient donc nécessaire à toute entreprise voulant s’adapter et se développer...

rgpd

RGPD : Comment cartographier les données sensibles grâce à l’IA ?

6 Avr, 2020 | Dev & Data Sciences, Technologies | 0 commentaires

I. INTRODUCTION : Contexte et rappel Juridique

  • Conformité et régulation RGPD
  • Les règles des données sensibles
  • La gestion des données sensibles

II. Cartographie des données sensibles

  • Une étape nécessaire
  • Un processus assez simple, mais laborieux
  • Quel outil pour la gestion des données sensibles ?

III. Pourquoi utiliser L’IA ?

  • Un rappelle sur l’IA
  • La solution de l’IA dans la cartographie

I. INTRODUCTION : Contexte et rappel juridique

Le 21 janvier 2019, la CNIL inflige 50 millions d’euros d’amende à Google pour non-conformité au RGPD.

Le RGPD, voté en 2016, et mis en application le 25 mai 2018 par la commission européenne, est issu d’une série de lois visant à protéger les citoyens français, dans un premier temps, puis européens. Il vise à éviter que l’utilisation des informations personnelles des citoyens européens ne porte atteinte à la liberté individuelle.

Dans le cadre du RGPD, les amendes sont administrées par l’autorité de réglementation de la protection des données de chaque pays de l’UE, la CNIL en France. Cette autorité détermine si une infraction a été commise ainsi que la sévérité de l’amende. Elle se fonde sur les dix critères suivants pour déterminer si une amende sera infligée et quel en sera le montant :

  • Gravité et nature – La situation générale de l’infraction. Ce qu’il s’est passé, comment cela s’est passé, pourquoi cela s’est passé, le nombre de personnes concernées, le préjudice qu’elles ont subi et le temps qu’il a fallu pour le résoudre.
  • Intention – L’infraction est-elle intentionnelle ou résulte-t-elle d’une négligence ?
  • Atténuation – L’entreprise a-t-elle pris des mesures pour atténuer le préjudice subi par les personnes touchées par l’infraction ?
  • Mesures de précaution – Le degré de préparation technique et organisationnelle que l’entreprise avait mis en œuvre auparavant pour se conformer au GDPR.
  • Historique – Toutes les infractions antérieures pertinentes, y compris les infractions à la directive sur la protection des données (pas seulement le GDPR), ainsi que la conformité aux mesures correctives administratives antérieures au titre du GDPR.
  • Coopération – Si l’entreprise a coopéré avec l’autorité de contrôle pour découvrir l’infraction et y remédier.
  • Catégorie de données – Quel type de données à caractère personnel est concerné par l’infraction ?
  • Notification – Si l’entreprise ou un tiers désigné a signalé l’infraction à l’autorité de contrôle de manière proactive.
  • Certification – L’entreprise a-t-elle suivi des codes de conduite approuvés ou a-t-elle déjà été certifiée ?
  • Facteurs aggravants/atténuants – Tout autre problème découlant des circonstances de l’affaire, y compris les avantages financiers obtenus ou les pertes évitées grâce à l’infraction.

Si les régulateurs déterminent qu’une organisation a de multiples violations du GDPR, elle ne sera pénalisée que pour la plus grave, à condition que toutes les infractions fassent partie de la même opération de traitement.

Conformité et régulation RGPD

Les règles des données sensibles :

Dès les premières réflexions sur la protection des données en 1974, la CNIL arrive rapidement à la conclusion que certaines données doivent faire l’objet d’une protection renforcée. Il s’agit de données particulièrement sensibles quant aux libertés et droits fondamentaux. Elles touchent l’intimité de l’individu et un mauvais usage peut représenter un risque élevé. Les données à risque sont :

  • Les données dites « sensibles »
  • Le numéro de sécurité sociale
  • Les données concernant le casier judiciaire (condamnations pénales, infractions…)

Les données « sensibles » concernent, elles, spécifiquement :

  • les origines raciales,
  • les opinions politiques,
  • les convictions philosophiques ou religieuses,
  • la santé (mentale ou physique),
  • la vie ou l’orientation sexuelle,
  • l’appartenance syndicale,
  • les données génétiques et biométriques.

Attention, il est important de faire la distinction entre les données « sensibles » (ci-dessus), dont la liste est limitée par la loi, et les données qui posent une forte sensibilité stratégique, comme des données financières ou des données couvertes par un secret industriel. Il n’y a pas de règle, qui impose un traitement spécifique pour ces données à sensibilité stratégique.

L’utilisation de données sensibles avec le RGPD

En principe, pour le respect de l’individu, le traitement des données sensibles est strictement interdit par le RGPD. Cependant, le règlement permet l’utilisation de ces informations dans certains cas. C’est à dire qu’il existe des exceptions quant à ce principe d’interdiction (article 9 RGPD). Il est primordial de s’assurer de se trouver dans un cas d’exception avant de pouvoir traiter de telles données. Ces cas sont les suivants :

  • l’individu donne son consentement explicite,
  • la donnée est obligatoire selon le droit du travail,
  • la donnée doit être utilisée à des fins médicales ou nécessaire à la survie de la personne,
  • la donnée est utilisée en donnée statistique pour de la
  • e pour l’intérêt public dans le domaine de la santé
  • la donnée est utilisée dans le cadre d’une organisation à but non lucratif (politique, philosophique, religieuse ou syndicale).

Prenons l’exemple d’un site de rencontre, pour exercer son activité, il doit nécessairement recueillir l’orientation sexuelle de ses utilisateurs. Afin de lever l’interdiction, le site doit donc recueillir l’accord explicite de l’internaute.

Un litige peut coûter cher à l’entreprise. Il est donc indispensable de s’assurer d’être conforme vis à vis du RGPD avant tout traitement de données sensibles.

Pour atteindre cette conformité il faut s’assurer de respecter les obligations générales imposées par le RGPD :

  • objectif du traitement de ces données : “adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées”
  • transparence du traitement : “traitées de manière licite, loyale et transparente au regard de la personne concernée (licéité, loyauté, transparence)”
  • sécurité : l’importance de la mise en place de mesures de sécurité renforcées pour le traitement de ces données

La gestion des données sensibles :

La définition des données sensible évoquée plus tôt montre qu’un mauvais traitement des données sensibles peut avoir des conséquences critiques quant à l’intégrité de la vie privée des personnes si elles sont révélées ou bien utilisées comme moyen de pression.

Par essence, les données sensibles peuvent avoir des incidences particulièrement critiques sur la vie privée ou public d’un individu si males exploitées.

Afin d’en prévoir au mieux la gestion, il est nécessaire de les distinguer des autres données traitées par l’entreprise, et autorisées par le RGPD. Elles devront ensuite faire l’objet d’un traitement spécifique et sécurisé, tel que la pseudonymisation ou anonymisation (remplacement des informations d’identification par des identifiants artificiels), ou le cryptage (réduit l’autorisation d’accès aux données à un nombre limité et prédéfinis d’individus).

II. Cartographie des données sensibles :

RGPD et registre des données sensibles

Effectuer une cartographie de ses données, sensibles ou non, donne lieu à la réalisation du registre des données personnelles, qui listera l’intégralité. Ce registre est un élément de base dans le RGPD : sans ce document il n’est pas possible d’atteindre la conformité RGPD demandée. En effet, quasi systématiquement demandé lors de tout contrôle, ce registre des traitements effectués est imposé aux entreprises de plus de 250 salariés, selon l’article 30 du Règlement, et aux aux entreprises de moins de 250 salariés qui traitent des données sensibles.

 

RGPD et entreprises de moins de 250 salariés

Le registre n’est pas obligatoire pour les entreprises de moins de 250 salariés ne traitant pas de données sensibles, mais très fortement recommandé.

L’intention de réalisation et le niveau d’attention porté à la production de ce document non-exhaustif déterminent alors les sanctions appliquées ou non par le CNIL lors de contrôles d’entreprises.

Ce registre doit comporter, entre autres, le nom et les coordonnées du responsable du traitement, les finalités de ces données, la catégorie de destinataires auxquelles les données à caractère personnel ont été ou seront communiquées.

Même si non-imposé aux plus petites entreprises, il est fortement recommandé pour elles de produire un tel document, notamment pour formaliser leur cartographie.

 

Comment cartographier ses données à caractère personnel ?

Le processus de cartographie des données à caractère personnel se fait en plusieurs étapes.

Tout d’abord, l’identification de toutes les données possédées : faire le tour de toute l’entreprise en récapitulant où sont placées les données (logiciels, documents, etc.).

Ensuite, une étape de catégorisation de ces données est nécessaire, tout comme les traitements qui leurs sont appliqués. Le processus inverse est également possible. On peut d’abord chercher les traitements, puis éplucher les données dans chaque traitement. L’essentiel est à la fin d’avoir une cartographie.

L’article 4 du Règlement défini ainsi un traitement comme « toute opération ou ensemble d’opérations effectuées ou non à l’aide de procédés automatisés et appliquées à des données ou des ensemble de données à caractère personnel, tel que la collecte, l’enregistrement, l’organisation, la structuration, la conservation, l’adaptation ou la modification, l’extraction, la consultation, l’utilisation, la communication par transmission, la diffusion ou tout autre forme de mise à disposition, le rapprochement ou l’interconnexion, la 

limitation, l’effacement ou la destruction ».

Cette définition de la notion de traitement contenu dans le RGPD englobe l’ensemble des opérations possibles sur des données personnelles.

 

Comment n’oublier aucune donnée ?

L’analyse des flux de données est également une étape importante de la création de la cartographie. Savoir où sont stockées les données, et où elles le seront, en sachant par où elles sont passées est primordiale pour identifier les éventuels transferts de données, notamment hors de l’Union Européenne, et ainsi en limiter les risques.

Très souvent, les équipes oublient les données papier (une impression ou une note sur un post-it sont des données personnelles) et les images de vidéosurveillance.

Il est également nécessaire de cartographier l’ensembles des acteurs, internes ou externes, manipulant ces données. Ces acteurs peuvent être des sous-traitants, des fournisseurs, prestataires, etc. Un tel référencement pourra alors donner lieu à des actualisations de clauses de confidentialités dans leurs contrats.

Enfin, une analyse d’impact peut être conduite, en fonction du public visé. Dans certains cas, un PIA (Privacy Impact Assessment) peut être obligatoire. Il analyse la présence possible de fuites d’informations, leur potentielle mauvaise exploitation, et les risques en découlant. 

 

Comment analyser la pertinence de sa cartographie ?

Littéralement, il s’agit de répondre aux questions : qui a accès aux données, qu’est ce qui est fait avec, pourquoi, où sont-elles placées et jusqu’à quand ? Et ainsi, d’identifier où sont stockées les données, lister les traitements appliqués et constater là où sont situés les risques ou non.

Il s’agit aussi d’expliquer pour quelle raison nous avons avons accès à ces données et également combien de temps nous comptons les conserver.

La durée de conservation doit être basée sur des critères temporels définis (ex. 5 ans après la fin du contrat, 3 fois la durée du contrat, jusqu’à retrait du consentement…) et pas « tant qu’il y a de la place sur le serveur… » (sic).

Si on installe un nouvel outil (logiciel ou service en ligne), il faut s’assurer dès le début qu’il permettra de réaliser le tri et la purge des données, car beaucoup de produits sur le marché actuellement ne le permettent pas.

 

Qui doit réaliser la cartographie ? Faut-il faire appel à un expert ?

Il n’est pas nécessaire de faire appel à un expert pour réaliser une telle cartographie. Pour les grandes entreprises, le DPO (ou correspondant CNIL) sera en charge de la conformité RGPD. Pour les plus petites entreprises, il pourra s’agir d’un employé désigné pour cette tâche. Mais ce processus chronophage nécessite, en plus d’un temps considérable, une grande vigilance ainsi que des process efficaces. Il faut en effet penser à tous les composants de l’entreprise pouvant traiter ou contenir des données sensibles : le digicode avec badge à l’entrée du bâtiment peut en être un exemple.

Il est alors possible de faire appel à un cabinet d’audit proposant de réaliser pour vous cette cartographie. Solution prudente et efficace, qui reste cependant un investissement sur le court terme, et extrêmement onéreuse.

 

Quel outil pour la gestion des données sensibles ?

La CNIL fournit elle-même des documents explicatifs sur la réalisation de document, tel que le registre des traitements, ou encore le PIA.

Quelques logiciels et outils sont également disponibles concernant la facilitation de la réalisation d’une partie du processus de cartographie. Par exemple, il existe des logiciels RGPD qui se proposent de détecter les données sensibles : les données sensibles sont très souvent collectées via les zones de textes libres. Afin d’éviter la saisie de ces informations (santé, vie sexuelle, n° de sécurité sociale…), il est essentiel d’utiliser des outils de sécurité adaptés. Ces logiciels proposent ainsi un contrôle efficace des zones de textes libres en détectant les données sensibles : en temps réel ou différé. 

III. Pourquoi utiliser L’IA ?

Un rappel sur l’IA

Face à un flot incessant de données, les entreprises doivent s’armer afin d’identifier et les données stratégiques et sensibles afin de se conformer et de les valoriser.

L’identification de ces données permet non seulement aux entreprises de gérer les problématiques règlementaires mais également de favoriser l’innovation de leurs outils techniques et pratiques pour accélérer et pérenniser leur développement.

La Data Science, qui consiste à collecter, analyser et décrypter des données brutes pour les traduire en informations fiables, et donc exploitables, pour les besoins des différents services ou besoins réglementaires de l’entreprise, utilise des technologies et pratiques qui exploitent les données pour fournir des informations de haute qualité et à forte valeur ajoutée.

Différentes technologies sont donc utilisées pour valoriser les données :

  •     Le Data Mining, ou exploration de données, consiste à analyser les données brutes et les transformer en informations utiles à l’entreprise. Le data mining est le processus qui consiste à trouver des anomalies, des modèles et des corrélations dans de grands ensembles de données afin de prédire les résultats. Ce n’est pas de l’IA.
  •     Le Machine Learning, ou apprentissage statistique, consiste à mettre en place des algorithmes automatisés qui apprennent à modéliser des fonctions et prédire des actions futures en analysant des milliers de données.
  •   Le Deep learning, ou apprentissage profond, est un sous-ensemble de l’IA. Mais, pour bien fonctionner, cette technologie nécessite de collecter des millions de données. Elle utilise des réseaux de neurones et plusieurs couches pour interpréter les données. Les résultats qu’elle donne peuvent être de toutes les formes (données numériques, textes, sons…).

Maîtriser ces technologies est un enjeu majeur pour les organisations qui doivent déterminer des plans d’actions de plus en plus complexes. En effet, ce n’est qu’après avoir établi des périmètres et maîtrisé complètement ses données que l’entreprise peut mettre en place des projets techniques à forte valeur ajoutée et exploiter pleinement ses intelligences artificielles (IA).

En outre, ces nouvelles technologies de valorisation de la donnée amplifient le besoin d’avoir des informations de plus en plus précises. L’IA se nourrit de données pour construire un modèle. Or, si elles sont peu précises et de mauvaise qualité alors le modèle devient caduc. Se fonder sur des données non qualifiées impactera toute la chaîne de valeur de la donnée et donc le résultat des traitements s’en verra erroné. Il est primordial d’avoir une matière première suffisamment qualitative pour avoir un réseau de neurones efficace. 

 

La solution de l’IA dans la cartographie

Dans l’optique de se conformer mais aussi d’éviter les contentieux spécifiques aux données sensibles présentes dans son système d’information, il faut : identifier, classer, chiffrer, masquer, empêcher les attaques, effectuer des audits et extraire des reportings de conformité. Après avoir vu les grandes tendances de l’IA on entend qu’une application spécifique puisse répondre à ces objectifs.

Ainsi, avec cette stratégie, l’intelligence artificielle et très particulièrement l’analyse sémantique  intelligente va permettre de répondre aux deux premières étapes : l’identification et la classification des données personnelles par la détection et le marquage des données sensibles. 

Du point de vue informatique, la sémantique est un “token” qui fournit un contexte au langage. Ils fournissent donc des indices sur la signification des mots, c’est à dire qu’ils vont pouvoir identifier qu’il s’agit d’un numéro de sécurité sociale, d’une donnée médicale et de tout autre type de données sensibles.

Mais ils informent aussi sur leurs relations avec d’autres données et d’autres “tokens” pour avoir par exemple une distinction des rôles et des interactions entre ces données pour leur donner du sens. L’objectif étant d’aller au-delà de l’identification des mots pour en extraire leur signification.

Pour qu’un programme d’analyse sémantique soit efficace, il doit pouvoir examiner des ensembles de données capitales et, à cette échelle, faire lui-même beaucoup d’hypothèses (correctes). Il s’agit de prendre des éléments qu’un ordinateur peut facilement glaner dans des données en examinant la fréquence, la proximité (et de nombreux autres facteurs) et de les utiliser pour faire des sauts cognitifs significatifs. Par exemple, un ordinateur peut voir des modèles qui lui indiquent ces choses : 

“1 60 04 24 311 114 28” et “numéro de sécurité sociale” sont liés sémantiquement.

“1 60 04 75 110 114 28” et “jambe cassée” sont plus étroitement liés que “1 60 04 24 311 114 2” et “numéro de sécurité sociale”.

Pour atteindre l’objectif – une véritable compréhension sémantique – l’ordinateur devrait faire le lien entre les données.

Il va ainsi comprendre qu’il s’agit d’un homme de 60 ans, né en avril, dans le 10ème arrondissement de Paris avec la jambe cassée, qu’il s’agit d’une donnée sensible, et qui doit éventuellement être modifiée, déplacée ou protégée. Pour faciliter l’identification puis ensuite le traitement de ces données, l’analyse sémantique peut classer le flux de données en plusieurs colonnes :

  • Informations personnellement identifiables (IPI) – ce qui dans une large mesure, établit un lien direct avec une personne ou l’identifie (par exemple nom, adresse électronique, etc.)
  • Quasi-Identifiants (QI) – il s’agit de colonnes qui peuvent ne pas être utiles en soi mais qui peuvent être combinées avec d’autres QI, des résultats de recherche et certaines informations externes pour identifier une personne (par exemple, le code postal, l’âge, le sexe, etc.).
  • Colonnes sensibles – il s’agit d’attributs qui ne sont pas des IPI ou des IQ mais qui constituent des données sur la personne qui doivent être protégées pour diverses raisons (par exemple, le salaire, le diagnostic du VIH, la localisation géographique de la personne, etc.)

L’analyse sémantique peut donc aller encore plus loin pour l’étape de masquage des données et protection des données. Mais attention, il ne faut pas se limiter aux données visibles. Les informations peuvent être dissimulées dans des mots, groupements de mots ou concepts qui permettent l’identification de l’individu et ou constituer une donnée sensible. 

Afin de pouvoir industrialiser la démarche, il faut mettre en place une politique de gouvernance efficace. Il faut pouvoir être capable d’identifier :

  • Le lineage, de la transformation de la source à la cible 
  • Une source faisant autorité par rapport à une autre base de données contenant cette valeur 
  • Le niveau de confiance qui implique l’application et la mesure des règles de qualité des données 

L’intelligence artificielle offre un éventail étonnant d’algorithmes et de méthodes pour nous aider à automatiser cette démarche. Toutefois, une approche méthodique étape par étape est nécessaire pour cette mise en œuvre. En outre, certaines de ces méthodes peuvent être très complexes. Et la plupart du temps, le résultat doit être confirmé par un utilisateur professionnel.

Il sera toujours nécessaire qu’un responsable valide le travail automatisé de conception sur la base d’un modèle de données. L’intelligence artificielle est donc un atout de taille pour une cartographie et un traitement efficace et précis pour détecter les données sensibles, mais ne sera souvent pas définitif avant que le facteur humain ne le valide.

 

Réalisations et exemples concernant l’utilisation de l’IA dans le cadre de données sensibles

Scient est expert en amélioration de process et en data science. Contactez-nous pour que nous vous présentions nos cas d’usage.

contact@scient.fr

Aller au contenu principal