Ha­doop rich­tig ab­si­chern

Computerwoche - - Inhalt - Von Fa­bi­an Wilckens, EMEA So­lu­ti­ons Ar­chi­tect – Bu­si­ness De­ve­lop­ment & Al­li­an­ces bei Ma­pR

Im­mer mehr Un­ter­neh­men ver­su­chen mit Ha­doop, Big Da­ta in den Griff zu be­kom­men. Al­ler­dings be­schäf­tigt vie­le die Fra­ge, wie si­cher das Frame­work ei­gent­lich ist.

Ha­doop ver­spricht An­wen­dern, Big Da­ta in den Griff zu be­kom­men. Häu­fig fra­gen sich die Un­ter­neh­men aber, ob ei­ne aus dem Open-Sour­ce-Um­feld stam­men­de Lö­sung den nö­ti­gen Si­cher­heits­an­for­de­run­gen ent­spricht.

Par­al­lel zum ge­stie­ge­nen In­ter­es­se an Big Da­ta hat sich das Open-Sour­ce-Frame­work Ha­doop wei­ter­ent­wi­ckelt. Galt das Sys­tem rund um das Ha­doop Dis­tri­bu­ted Fi­le Sys­tem (HDFS) und den Map-Re­du­ce-Al­go­rith­mus an­fangs noch als Batch-ori­en­tier­te Lö­sung zur In­di­zie­rung von Such­an­fra­gen, wird es heu­te in vie­len Un­ter­neh­men als Da­ten­ba­sis für zahl­rei­che Ap­pli­ka­tio­nen ein­ge­setzt. Doch da­mit rückt das The­ma Si­cher­heit in den Vor­der­grund, und vie­le An­wen­der fra­gen sich, ob Ha­doop hier­für die nö­ti­gen Vor­aus­set­zun­gen mit­bringt.

Be­lieb­te Ein­satz­zwe­cke von Ha­doop-Sys­te­men sind heu­te et­wa die Op­ti­mie­rung von Da­ta Wareh­ou­ses, das Auf­de­cken von Be­trugs­fäl­len und Ano­ma­li­en, da­zu Re­com­men­da­ti­on En­gi­nes und Click­stream-Ana­ly­sen. Der Grund für die Ent­wick­lung von Ha­doop zu ei­nem reich­hal­ti­gen Big-Da­ta-In­stru­men­ten­kas­ten liegt in den zahl­rei­chen Open-Sour­ce-Pro­jek­ten, die über die Jah­re in das Sys­tem hin­ein­ge­wach­sen sind – da­zu zäh­len Apa­che HBa­se, Apa­che Hi­ve, Apa­che Drill, Apa­che Mahout und Apa­che Pig. Die­se Er­wei­te­run­gen bie­ten den Nut­zern lau­fend wei­te­re Funk­tio­nen.

Wie sich Ha­doop ab­si­chern lässt

In ei­ni­gen In­stal­la­ti­ons­mo­del­len tren­nen Un­ter­neh­men ei­nen Ha­doop-Clus­ter durch Fi­re­walls und an­de­re Netz­werk-Schutz­me­cha­nis­men vom Rest der IT-Land­schaft ab und er­mög­li­chen nur we­ni­gen ver­trau­ens­wür­di­gen An­wen­dern den Zu­gang. Die­ses re­la­tiv häu­fi­ge Mo­dell hängt nicht not­wen­di­ger­wei­se von den Ha­doop-ei­ge­nen Si­cher­heits­funk­tio­nen ab. Als Er­wei­te­rung da­zu kann ein Mo­dell auch den di­rek­ten Lo­gin zu den Clus­ter-Ser­vern un­ter­sa­gen. Statt­des­sen er­hal­ten Nut­zer nur Zu­griff über die End­kno­ten – in Kom­bi­na­ti­on mit Ha­doop-Si­cher­heits­kon­trol­len. Ein et­was wei­ter ver­fei­ner­ter An­satz nutzt die vol­len Si­cher­heits­funk­tio­nen in Ha­doop zu­sam­men mit Mo­ni­to­ring- und Ana­ly­se-Tools auf Ha­doopClus­tern, die Ein­brü­che und Fremd­ak­ti­vi­tä­ten auf­spü­ren und ver­hin­dern.

Zu den Si­cher­heits­funk­tio­nen, auf die Un­ter­neh­men an die­ser Stel­le Wert le­gen soll­ten, ge­hört bei­spiels­wei­se die er­wei­ter­ba­re Au­then­ti­fi­zie­rung: ei­ne Distribution mit Li­nux Plug­gab­le Au­then­ti­ca­ti­on Mo­du­les (PAM) bie­tet ei­ne brei­te Re­gis­try-Un­ter­stüt­zung für den ei­ge­nen Ha­doop-Clus­ter an. Für die wei­te­re Kon­trol­le soll­ten Ac­cess Con­trol Ex­pres­si­ons vor­han­den sein, die mit­tels boo­le­scher Aus­drü­cke ei­ne fein jus­tier­ba­re Zu­griffs­kon­trol­le auf der Ta­bel­le­nebe­ne wie auch für Zei­len­fa­mi­li­en und Zei­le­n­ebe­ne bie­ten.

Des Wei­te­ren soll­te ein kom­plet­tes Log über Nut­zer­ak­ti­vi­tä­ten be­reit­ge­stellt wer­den, um Nut­zer­ver­hal­ten nach­voll­zie­hen und Com­p­li­an­ce ge­währ­leis­ten zu kön­nen. Die Au­dit-Da­ten las­sen sich in der Fol­ge ana­ly­sie­ren und durch­su­chen, et­wa mit Apa­che Drill, BI-Tools

wie Ta­bleau oder be­ste­hen­den SIEM-Sys­te­men. Un­ter­neh­men soll­ten auch auf lo­gi­sche Par­ti­tio­nen der Da­ten­sets ach­ten. Sie er­mög­li­chen es im Zu­sam­men­spiel mit fi­xier­ten An­sich­ten via Snap­shots, die Trans­for­ma­ti­ons­his­to­rie der Da­ten nach­zu­voll­zie­hen, um die Da­ten­stamm­fol­ge, Au­dit­ing- und Re­ten­ti­onAn­for­de­run­gen zu ge­währ­leis­ten. Grund­sätz­lich gilt auch im Ha­doop-Um­feld: Ei­ne Stra­te­gie zur Da­ten­si­cher­heit muss vor der Im­ple­men­tie­rung und der In­te­gra­ti­on ins Un­ter­neh­mens-Öko­sys­tem er­fol­gen. Wie an­de­re Platt­for­men im Re­chen­zen­trum auch, wird Ha­doop frü­her oder spä­ter auch sen­si­ble Da­ten spei­chern, die be­stimm­ten Si­cher­heits- und Da­ten­schutz­be­stim­mun­gen so­wie Au­dits un­ter­lie­gen.

Klei­ne­re Ha­doop-In­stal­la­tio­nen oder sol­che, die noch im Früh­sta­di­um ste­cken, spei­chern oft kei­ne si­cher­heits­re­le­van­ten Da­ten. Aber selbst wenn es der Use Ca­se nicht vor­sieht, dass auch Do­ku­men­te mit sen­si­blen In­for­ma­tio­nen in Ha­doop ab­ge­legt wer­den, wird dies frü­her oder spä­ter pas­sie­ren. Ei­ne Stra­te­gie, da­mit um­zu­ge­hen, soll­te sich da­her zu­erst mit den Da­ten­ty­pen be­schäf­ti­gen: Han­delt es sich bei den zu spei­chern­den In­for­ma­tio­nen um struk­tu­rier­te Da­ten, et­wa Fel­der in Da­ten­strö­men, Feeds oder Trans­ak­ti­ons­flüs­sen? Oder sind es se­mi­struk­tu­rier­te Da­ten, wie Fel­der in Da­tei­en? Oder soll es ganz beim un­struk­tu­rier­ten An­satz blei­ben, als Bi­när­ob­jek­te, Scans, Da­ten und Do­ku­men­te?

Wenn die Da­ten­struk­tur nicht vor­her be­kannt ist, emp­fiehlt sich die Ver­schlüs­se­lung auf Fest­plat­ten­ebe­ne und/oder HDFS auf Ord­ner­und Do­ku­men­ten­ebe­ne. Zur Si­che­rung der Com­p­li­an­ce und der ru­hen­den Da­ten soll­te das bei je­der Ha­doop-In­stal­la­ti­on als Grund­la­ge die­nen. Die­se Art des Da­ten­schut­zes hilft, Zu­griffs­kon­trol­len ein­zu­füh­ren, und ist ef­fek­tiv für al­le Da­ten­ty­pen. Zu­sätz­lich muss für die Da­ten in Be­we­gung Ver­schlüs­se­lung ein­ge­setzt wer­den, et­wa SSL/TLS-Pro­to­kol­le. Der da­ten­zen­tri­sche An­satz un­ter­schei­det sich deut­lich von an­de­ren tra­di­tio­nel­len Me­tho­den wie Da­ta-at-Rest- oder Da­ta-in-Mo­ti­on-Ver­schlüs­se­lung. Sen­si­ble Da­ten­ele­men­te auf Feld­ebe­ne wer­den durch nut­zba­re, aber dei­den­ti­fi­zier­te Äqui­va­len­te er­setzt, die das For­mat, das Ver­hal­ten und die Be­deu­tung der Ele­men­te bei­be­hal­ten. In­dem man le­dig­lich die sen­si­blen Da­ten­ele­men­te mo­di­fi­ziert und ih­nen ih­re wah­ren Wer­te nimmt, ver­schwin­det ih­re Sen­si­bi­li­tät – doch sie wir­ken wei­ter­hin wie die ech­ten Da­ten.

Die­ser for­mat­schüt­zen­de An­satz kann bei struk­tu­rier­ten und se­mi­struk­tu­rier­ten Da­ten glei­cher­ma­ßen an­ge­wandt wer­den. Die­se Me­tho­de nennt sich auch „En­de-zu-En­de-Da­ten­schutz“und bie­tet ei­ne un­ter­neh­mens­wei­te Schutz­mög­lich­keit für In­for­ma­tio­nen in­ner­halb wie au­ßer­halb der Ha­doop-Um­ge­bung. Die ge­schütz­te Form der Da­ten lässt sich auch in an­de­ren An­wen­dun­gen, Ana­ly­se-En­gi­nes, im Da­ten­trans­fer und Da­ten­spei­cher pro­blem­los ein­set­zen. Ein gro­ßer Vor­teil: Der Groß­teil der Ana­ly­sen lässt sich auch an de-iden­ti­fi­zier­ten Da­ten mit da­ten­zen­tri­schen Tech­ni­ken durch­füh­ren.

Newspapers in German

Newspapers from Germany

© PressReader. All rights reserved.