Comment conci­lier Big Da­ta et RGPD ?

Comment conci­lier

L'Informaticien - - SOMMAIRE - ALAIN CLAPAUD

Alors que le jour of­fi­ciel de l’en­trée en vi­gueur du rè­gle­ment eu­ro­péen de la pro­tec­tion des don­nées ( RGPD) ap­proche, le Big Da­ta est au coeur des pré­oc­cu­pa­tions de DSI et des DPO. Pro­tec­tions ren­for­cées et nou­velles pro­cé­dures sont en plein dé­ploie­ment pour être prêt à la date du 25 mai 2018.

Par sa na­ture même, les grands Da­ta Lake mis en place par les en­tre­prises sont les pre­miers à être tou­chés par l’en­trée en ap­pli­ca­tion pro­chaine du rè­gle­ment eu­ro­péen qui vise à ren­for­cer la pro­tec­tion des don­nées per­son­nelles des ci­toyens de l’Union. Si les so­lu­tions qui ar­borent le lo­go « RGPD Rea­dy » tiennent plus du mar­ke­ting que du réel dé­ve­lop­pe­ment pour le nou­veau rè­gle­ment eu­ro­péen, un cer­tain nombre de briques peuvent être dé­ployées dans le sys­tème d’in­for­ma­tion pour al­ler vers la confor­mi­té.

Pre­mière phase : par­tir à la dé­cou­verte des don­nées

Les DPO vont pres­ser leurs DSI et les ad­mi­nis­tra­teurs de Da­ta Lake de ra­pi­de­ment mettre en place des pro­cé­dures pour faire face aux de­mandes d’ac­cès aux don­nées per­son­nelles, au droit d’ef­fa­ce­ment de ces don­nées ou en­core de por­ta­bi­li­té des don­nées. Préalable in­dis­pen­sable à cette mise en confor­mi­té du Da­ta Lake, il est né­ces­saire de ré­per­to­rier où sont réel­le­ment sto­ckées les don­nées per­son­nelles. Il faut le faire dans l’in­fra­struc­ture Big Da­ta, mais aus­si dans tout le SI, no­tam­ment pour dé­bus­quer tous les ex­ports de base de don­nées réa­li­sés pour les be­soins du mar­ke­ting, pour la RH, pour les com­mer­ciaux, des fi­chiers Ex­cel, des bases Microsoft Ac­cess ou même des ex­ports vers des ou­tils ana­ly­tiques type Qlik­view ou Ta­bleau qui échappent par­fois au contrôle étroit de la DSI. Por­té par le RGPD, le mar­ché des ou­tils de Da­ta Dis­co­ve­ry, lit­té­ra­le­ment dé­cou­verte des don­nées, se porte bien et s’il existe de nom­breuses so­lu­tions pour ins­pec­ter un SI, il en existe cer­taines dé­diées au Big Da­ta. Outre les so­lu­tions des gros édi­teurs comme SAS Ins­ti­tute, Oracle, de mul­tiples édi­teurs pro­posent des so­lu­tions ca­pables de par­cou­rir les don­nées des grands Da­ta Lake : Im­per­va, Pri­fen­der, Pri­va­ce­ra. Ali­via Smith, res­pon­sable mar­ke­ting de l’édi­teur Da­tai­ku sou­ligne : « La pre­mière étape est de re­cher­cher où l’on stocke de la don­née per­son­nelle puis de do­cu­men­ter tous nos trai­te­ments de don­nées en in­terne. Dans

notre cas, c’était une tâche re­la­ti­ve­ment simple car toutes nos don­nées sont cen­tra­li­sées dans un même ou­til. » Même constat pour Ab­has Ri­cky, à la tête de la stra­té­gie d’Hor­ton­works, édi­teur de l’une des dis­tri­bu­tions Ha­doop les plus po­pu­laires dans les en­tre­prises, no­tam­ment chez les Tel­cos, le sec­teur de la banque/ as­su­rance en pre­mière ligne sur le RGPD : « Beau­coup d’en­tre­prises ne connaissen­t pas pré­ci­sé­ment l’en­semble des da­ta­sets où ils ont des don­nées per­son­nelles car ils col­lectent les don­nées de ma­nières très di­verses, Il faut être ca­pable d’iden­ti­fier où se trouve cette don­née per­son­nelle, la don­née sen­sible. La don­née peut être au­to- clas­si­fiée via un jeu de règles qui vont per­mettre de ta­guer toutes les in­for­ma­tions en­trantes, via At­las, un ou­til qui fait par­tie du stack Hor­ton­works, mais il est pos­sible d’uti­li­ser d’autres ou­tils plus spé­cia­li­sés sur notre stack open source. »

Le casse- tête de l’ano­ny­mi­sa­tion des don­nées

Dès lors que l’on dis­pose d’une car­to­gra­phie à jour du Da­ta Lake, le bon sens veut que pour li­mi­ter les risques de fuite et d’usages non sou­hai­tés de la don­née per­son­nelle, il faille ano­ny­mi­ser au maxi­mum les don­nées et les faire ain­si sor­tir du champ d’ap­pli­ca­tion du RGPD. Outre des al­go­rithmes open source que les ad­mi­nis­tra­teurs peuvent exé­cu­ter sur leurs don­nées, il existe de mul­tiples so­lu­tions lo­gi­cielles pour ano­ny­mi­ser ou mas­quer les don­nées sto­ckées ou à la vo­lée comme ce que réa­lise la so­lu­tion Da­taRes­pect du Bor­de­lais Ma­gush : « Il s’agit d’un proxy d’ano­ny­mi­sa­tion qui filtre toutes les don­nées qui entrent ou qui sortent du Da­ta Lake » , ex­plique Phi­lippe Mi­chel, di­rec­teur gé­né­ral de Ma­gush. « L’idée, c’est que pour être en confor­mi­té avec le RGPD, on ne stocke que des don­nées non iden­ti­fiables sur le ser­veur d’en­tre­prise. Il s’agit d’une ano­ny­mi­sa­tion temps réel sans im­pact sur la base de don­nées elle- même. » At­ten­tion !, croire qu’il suf­fit de rem­pla­cer les noms et le pré­nom par des « * » ou réa­li­ser un ha­shage de ces champs pour ne pas tom­ber sous le coup du rè­gle­ment eu­ro­péen se­rait une lourde er­reur. L’avis du G29 – le grou­pe­ment de toutes les « Cnil » eu­ro­péennes – est très dif­fé­rent car il est as­sez simple de re­mon­ter à un in­di­vi­du en ana­ly­sant et en fai­sant de la cor­ré­la­tion de don­nées. Ain­si, l’adresse IP est consi­dé­rée comme per­son­nelle par la Cnil. De même qu’avec le genre, l’adresse d’une per­sonne et un di­plôme par exemple, il est fa­cile de re­trou­ver son nom, mais plus on ef­face des don­nées, moins les ana­lyses se­ront per­ti­nentes. L’ar­ticle 26 du rè­gle­ment eu­ro­péen est très clair sur ce point : « Les don­nées à ca­rac­tère per­son­nel qui ont fait l’ob­jet d’une pseu­do­ny­mi­sa­tion et qui pour­raient être at­tri­buées à une per­sonne phy­sique par le re­cours à des in­for­ma­tions sup­plé­men­taires de­vraient être consi­dé­rées comme des in­for­ma­tions concer­nant une per­sonne phy­sique iden­ti­fiable. » L’ano­ny­mi­sa­tion de­mande donc une ana­lyse des don­nées soi­gneuse et dé­ci­der

de quelles don­nées il fau­dra se pas­ser et celles qui se­ront réel­le­ment utiles aux Da­ta Scien­tists. À titre d’exemple, le CASD qui cu­mule nombre de don­nées sen­sibles sur le fran­çais à sou­hai­té conser­ver ab­so­lu­ment toutes les don­nées, mais il le fait au prix d’un ni­veau de sé­cu­ri­té ul­tra- éle­vé car la moindre fuite de don­nées se­rait ca­tas­tro­phique.

La cy­ber­sé­cu­ri­té du Da­ta Lake doit s’éle­ver

Autre tech­nique sou­vent évo­quée pour pro­té­ger les don­nées per­son­nelles, le chif­fre­ment. La tech­nique est bien connue, ses in­con­vé­nients aus­si, no­tam­ment du fait de la charge de cal­cul im­po­sée par le chif­fre­ment et le dé­chif­fre­ment des don­nées. En Big Da­ta, s’il est bien évi­dem­ment pos­sible de chif­frer in­té­gra­le­ment un Da­ta Lake, en pra­tique le temps de trai­te­ment des al­go­rithmes ins­pire les ad­mi­nis­tra­teurs à plus de mo­dé­ra­tion : « Plu­sieurs ni­veaux de chif­fre­ment sont réa­li­sables en ce qui concerne un Da­ta Lake » , ex­plique Thi­bault Sto­rai, ex­pert Big Da­ta chez Te­ra­da­ta. « Un chif­fre­ment au ni­veau des disques durs n’est pas pé­na­li­sant en termes de per­for­mances, mais ne per­met que de se pré­mu­nir du vol d’un disque dur dans le da­ta cen­ter. Au ni­veau de la couche lo­gi­cielle, Hor­ton­works et Clou­de­ra sup­portent le chif­fre­ment des don­nées, néan­moins ce chif­fre­ment de­mande beau­coup de res­sources et il faut ab­so­lu­ment le li­mi­ter aux don­nées sen­sibles, comme les nu­mé­ros de carte ban­caire par exemple. » Outre l’ano­ny­mi­sa­tion, le chif­fre­ment, l’ac­cès aux don­nées est un point cru­cial dans la sé­cu­ri­sa­tion d’un Da­ta Lake. L’hu­main reste le maillon faible de la cy­ber­sé­cu­ri­té d’un SI et c’est tout par­ti­cu­liè­re­ment le cas pour les comptes ayant ac­cès au Da­ta Lake. De l’avis gé­né­ral des ex­perts, la sé­cu­ri­sa­tion fa­çon Unix d’Apache Ha­doop ne suf­fit pas à une mise en confor­mi­té. Il faut dé­sor­mais ap­puyer les ac­cès aux Da­ta Lake sur un sys­tème de ges­tion des droits qui per­met une plus grande gra­nu­la­ri­té et qui est sur­tout ca­pable de tra­cer ab­so­lu­ment toutes les ma­ni­pu­la­tions réa­li­sées par chaque Da­ta Scien­tist, chaque Da­ta En­gi­neer ou chaque ad­mi­nis­tra­teur. « Les édi­teurs de dis­tri­bu­tions com­mer­ciales d’Ha­doop ont éten­du la pla­te­forme Big Da­ta et lui ont don­né des ca­pa­ci­tés qui per­mettent de ré­pondre à 100 % au RGPD » , es­time Thi­bault Sto­rai.

L’as­pect le plus im­por­tant est de pou­voir lo­ca­li­ser les don­nées sen­sibles Ab­has Ri­cky, à la tête de la stra­té­gie d’Hor­ton­works

« Nous tra­vaillons avec les deux par­te­naires les plus pré­sents sur le mar­ché, Clou­de­ra et Hor­ton­works, et leurs dis­tri­bu­tions donnent la ca­pa­ci­té d’iden­ti­fier et de ga­ran­tir l’au­then­ti­fi­ca­tion d’un uti­li­sa­teur. Leur ges­tion des droits d’ac­cès aux don­nées per­met d’avoir un bon ni­veau de fi­nesse et on dis­pose d’un re­por­ting com­plet des ac­cès. » Jé­ré­my Greze, Da­ta Ana­lyst chez Da­tai­ku ajoute : « Il faut ab­so­lu­ment cloi­son­ner le Da­ta Lake afin qu’il ré­ponde aux be­soins de chaque équipe, de chaque mé­tier. Sur notre pla­te­forme, nous tra­çons l’en­semble des ac­tions de chaque uti­li­sa­teur et non pas celles réa­li­sés par un pro­fil. En cas de fuite de don­nées, c’est pré­fé­rable pour re­tra­cer ce qui s’est pas­sé. »

Le com­por­te­men­tal garde un oeil sur les Da­ta Scien­tists

Pou­voir dé­fi­nir fi­ne­ment les droits de cha­cun et tra­cer les ac­tions est ren­du né­ces­saire par le RGPD mais ce­la res­te­ra in­ef­fi­cace si un pi­rate se connecte avec les lo­gin/ pass­word va­lides d’un ad­mi­nis­tra­teur. De nom­breux lo­gi­ciels de sé­cu­ri­té sont dé­diés à la ges­tion des comptes à pri­vi­lèges. Wal­lix, Bom­gar, Ba­la­bit se sont spé­cia­li­sés dans ce type d’ou­tils, no­tam­ment en cou­plant ces ac­cès à un sys­tème d’au­then­ti­fi­ca­tion forte pour les comptes les plus cri­tiques. Autre ac­teur pré­sent sur ce type de so­lu­tion IBM qui évoque une ten­dance force dans la sur­veillance de ces comptes, l’uti­li­sa­tion du Ma­chine Lear­ning pour réa­li­ser un contrôle com­por­te­men­tal de ces comptes. « Notre so­lu­tion Se­cu­ri­ty Guar­dium pro­tège aus­si bien les bases de don­nées re­la­tion­nelles que les en­vi­ron­ne­ments plus ty­pés Big Da­ta ou les bases de don­nées main­frame » , ré­sume Da­vid Ba­tut, di­rec­teur com­mer­cial chez IBM Se­cu­ri­ty. « Elle va gé­né­rer des alertes en cas d’ac­cès sus­pect ou même de blo­cage de cer­tains ac­cès, réa­li­ser un “Dy­na­mic Da­ta Mas­king ” afin de ca­cher cer­taines don­nées à cer­tains pro­fils d’uti­li­sa­teurs. » Ces so­lu­tions, sou­vent mises en place pour ca­drer le com­por­te­ment des DBA des bases re­la­tion­nelles les plus sen­sibles, sont dé­sor­mais dé­ployées sur les Da­ta Lake de­ve­nus ul­tra­sen­sibles vis- à- vis du RGPD. Le Da­ta Scien­tist ou l’ad­mi­nis­tra­teur qui, sou­dai­ne­ment, fait des ex­ports de don­nées sur un disque lo­cal ou une clef USB va éveiller l’at­ten­tion du mo­teur com­por­te­men­tal et dé­clen­cher une contre- me­sure et re­mon­ter cet in­ci­dent vers le SOC où les ana­lystes en cy­ber­sé­cu­ri­té vont pou­voir en­quê­ter. Beau­coup reste en­core à faire pour les en­tre­prises afin de mettre leur Da­ta Lake en confor­mi­té avec le RGPD d’ici au 25 mai 2018, mais at­ten­tion, il ne s’agit pas d’un pro­jet ponc­tuel. Il va fal­loir au­di­ter ré­gu­liè­re­ment le SI de l’en­tre­prise et tout par­ti­cu­liè­re­ment son Da­ta Lake afin de res­ter en confor­mi­té alors que l’on com­mence dé­jà à évo­quer le droit fu­tur de l’in­ter­naute à de­man­der des ex­pli­ca­tions sur la dé­ci­sion d’un al­go­rithme, mais c’est une autre his­toire... ❍

Les dis­tri­bu­tions Ha­doop avan­cées in­tègrent des dis­po­si­tifs so­phis­ti­qués de ges­tion d’ac­cès aux don­nées et de tra­ça­bi­li­té des opé­ra­tions réa­li­sées sur les don­nées. Ici, l’ar­chi­tec­ture Hor­ton­works qui met en oeuvre le ré­fé­ren­tiel At­las et l’ou­til de...

La mise en confor­mi­té RGPD d’une in­fra­struc­ture Big Da­ta passe né­ces­sai­re­ment par une phase de dé­cou­verte des don­nées afin de lo­ca­li­ser tous les ré­fé­ren­tiels qui contiennen­t des don­nées per­son­nelles.

Les dis­po­si­tifs hard­ware d’au­then­ti­fi­ca­tion forte ou les boî­tiers de sé­cu­ri­té tels que la SD- Box du CASD sont un moyen d’éle­ver le ni­veau de sé­cu­ri­té d’un Da­ta Lake.

Newspapers in French

Newspapers from France

© PressReader. All rights reserved.