Les articles publiés par Mission RGPD suivent nos épisodes d’1min pour tout comprendre. Il s’agit de courtes vidéos à l’occasion desquelles nos juristes experts en protection des données personnelles vous proposent des définitions simples de notions clefs du Règlement général sur la protection des données personnelles (RGPD) et vous donnent des exemples concrets. Suivez-nous sur LinkedIn pour ne manquer aucune actualité !
Aujourd’hui nous abordons la notion d’anonymisation. Installez-vous confortablement, on vous explique tout en 5 min !
Qu’est-ce que l’anonymisation ?
L’anonymisation est une des mesures techniques pouvant être mise en œuvre par les responsables de traitements. D’après la CNIL, c’est une opération qui consiste à utiliser un ensemble de techniques, de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière irréversible. Une fois anonymisées, les données ne sont plus soumises au RGPD puisqu’elles ne revêtent plus un caractère personnel.
L’anonymisation permet de conserver les données pour un traitement défini, sans qu’elles puissent être attribuées à la personne concernée. L’anonymisation est utile pour conserver les données au-delà de leur durée de conservation initiale, mais aussi pour les réutiliser, les publier, etc. Il faut néanmoins être vigilant sur ce point et s’assurer que le processus d’anonymisation est réellement efficace. Si l’anonymisation est bien réalisée, elle permet d’utiliser des données, qui sont à l’origine des données personnelles, en limitant les risques d’atteinte à la vie privée des personnes. En effet la personne qui accède ensuite aux données ne dispose que d’une vue anonymisées d’un jeu de données.
Il existe différentes méthodes d’anonymisation, regroupées en deux familles : la randomisation et la généralisation. Chacune de ces deux familles englobe plusieurs techniques. Pour procéder à la randomisation d’un jeu de données, les principales techniques utilisables sont : l’ajout de bruit, la permutation et la confidentialité différentielle. S’agissant de la généralisation, ce sont principalement les techniques d’agrégation et de k-anonymat, l-diversité et t-proximité qui peuvent être utilisées. Chaque méthode d’anonymisation a une utilité différente et garantie un niveau de précision variable. Pour déterminer quelle méthode d’anonymisation doit être déployée, il faut au préalable identifier la finalité du traitement. Cette finalité pour laquelle les données doivent être anonymisées peut par exemple être l’établissement des statistiques. La méthode présentée ci-dessous n’est qu’un exemple simplifié d’anonymisation par généralisation (technique de k-anonymat).
Comment fonctionne la généralisation ?
En utilisant une technique de généralisation, le responsable de traitement modifie l’échelle des attributs des jeux de données, ou leur ordre de grandeur. Si par exemple, parmi les catégories de données à anonymiser se trouve l’âge des personnes concernées ; pour généraliser ces données il faut remplacer l’âge précis des personnes par des tranches d’âges. Grâce à ce processus, le jeu de données ne peut plus être individualisé et il n’est plus possible de réidentifier la personne.
Pour illustrer, prenons l’exemple d’un ensemble de données utilisées par le service RH d’une organisation. Dans cet exemple, ce service utilise les données pour établir des statistiques du salaire des personnes, en fonction de leur âge et de leur ancienneté dans l’entreprise. Les données brutes sont les suivantes :
La première étape d’anonymisation consistera à supprimer le nom des personnes concernées puisque cette donnée n’est pas nécessaire pour le traitement envisagé. Pour rappel, le RGPD pose à l’article 5 une obligation de ne traiter que les données nécessaires à la finalité définie (principe de minimisation). Le matricule peut également permettre d’identifier les personnes, à condition de disposer d’un fichier qui fait correspondre le matricule à l’identité de la personne (comme sur le tableau ci-dessus, ou une fiche de paie par exemple). Ainsi, pour réaliser les statistiques envisagées, il n’est pas nécessaire de conserver le matricule.
Les attributs de la personnes comme son âge et son ancienneté permettent de l’identifier facilement. Ces données doivent être anonymisées puisqu’elles ont un intérêt dans le calcul des statistiques souhaitées par le service RH. Enfin il reste à traiter la donnée sensible : le salaire. Cette donnée doit également être anonymisée. Ici, l’intérêt d’anonymiser ces jeux de données est de défaire le lien identifiant entre le nom de la personne concernée et son salaire.
Pour procéder à l’anonymisation de ces données en utilisant une méthode de généralisation, il faut changer l’échelle des données en établissant des tranches d’âge, de salaire et si la date d’ancienneté est inférieure ou supérieure à une date établie. Cela rend les données réutilisables mais moins précises. Dans notre exemple, les données après anonymisation seront les suivantes :
Quels sont les écueils à éviter dans un processus d’anonymisation ?
Les lignes directrices du G29 relatives aux techniques d’anonymisation (2014) relèvent trois conditions pour que le processus d’anonymisation soit fiable, il doit être impossible :
- D’individualiser, c’est-à-dire qu’il ne doit pas être possible d’isoler un individu dans l’ensemble de données. Dans l’exemple ci-dessus, les individus sont regroupés dans des catégories larges ;
- De corréler, autrement dit les données relatives à une seule personne ou à un groupe de personnes ne doivent pas pouvoir être reliées entre elles ;
- D’inférer, c’est-à-dire de déduire des informations, avec un degré de probabilité élevé.
Mission RGPD et l’anonymisation
Grâce à Mission RGPD, dans chaque fiche de traitement, renseignez en quelques clics les mesures que mises en œuvre pour assurer la sécurité des données, dont l’anonymisation ! Ajoutez en pièce jointe le document qui détaille votre processus. En cas de contrôle, retrouvez facilement les documents nécessaires et les liens qui les relient entre eux !