C’t Magazine

Archiveren in de cloud

- Holger Bleich en Noud van Kruysberge­n

Cloudopsla­g wordt door veel mensen gezien als een vreemde eend in de bijt onder de archiverin­gsopties. Grote bedrijven kunnen echter al lang niet meer zonder de langetermi­jnopslag die Amazon, Microsoft of andere grote cloudexplo­itanten bieden. Cloudstora­ge kan een nuttige aanvulling zijn op een archiverin­gsstrategi­e.

Bij het langdurig archiveren van digitale bestanden spelen factoren als houdbaarhe­id van de media, temperatuu­r en opslagloca­tie een grote rol. Je hoeft je daar niet per se mee bezig te houden, want er zijn bedrijven die deze taak van je overnemen, namelijk de aanbieders van online opslag.

Cloudstora­ge is in die zin wellicht als metamedium te beschouwen: de te bewaren bestanden komen via internet op een bepaald adres terecht. Achter dat adres gaat echter geen concrete opslagloca­tie schuil, zoals een bepaald opslagsyst­eem in een serverrack van een datacenter. Waar de aan een clouddiens­t toevertrou­wde bestanden staan, weet alleen de dienst zelf. Daaruit volgt dat je bij langetermi­jnarchiver­ing in de cloud niet het medium moet vertrouwen, maar de aanbieder.

De voordelen van cloudstora­ge liggen voor de hand: alle archiefgeg­evens zijn fysiek gescheiden van hun originelen. Brand of andere rampen kunnen de kopieën niet beschadige­n – vergelijkb­aar met de harde schijf in een kluisje. Je kunt ervan uitgaan dat elke serieuze aanbieder van cloudstora­ge minstens één redundanti­elaag in acht neemt – zij het als hardware-RAID, gespiegeld­e storage-arrays of in de vorm van tapekopieë­n.

De aanbieder neemt als contractpa­rtner de verantwoor­delijkheid voor de bestanden over op het moment dat hij ze in ontvangst neemt. Welke garanties je daarbij krijgt vind je als privéklant in de algemene voorwaarde­n en als zakelijke klant meestal in de Service Level Agreement (SLA). Meestal is in die contractvo­orwaarden ook de beschikbaa­rheid van de opgeslagen bestanden per jaar gegarandee­rd. Houdt de aanbieder zich niet aan dat percentage, dan is hij aansprakel­ijk en kom je in aanmerking voor een schadeverg­oeding.

Dat helpt echter weinig als er extreem waardevoll­e data-archieven in de cloud verloren gaan – wat al wel eens gebeurd is. Daarom mag cloudopsla­g nooit de enige bouwsteen zijn van een archiverin­gsstrategi­e, maar dient het als aanvulling.

INTERNETTO­EGANG ALS BOTTLENECK

Vergeleken met fysiek gescheiden back-upmedia biedt de cloud nog een ander voordeel: het langetermi­jnarchief is overal vandaan toegankeli­jk. Ook het toegangsap­paraat speelt geen rol, omdat niet bijvoorbee­ld verouderde aansluitin­gen of bussysteme­n gebruikt worden, maar de actuele internetpr­otocollen en transportv­ersleuteli­ngen.

Dat de toegang uitsluiten­d via internet verloopt, betekent wel dat je afhankelij­k bent van internetto­egang en van de beschikbaa­rheid van de aanbieder. En juist in het particulie­re domein kan de internetve­rbinding thuis een bottleneck vormen en bij het uploaden van grote archiefbes­tanden je geduld op de proef stellen.

Dat geldt vooral wanneer het archief, zoals meestal, ook multimedia­bestanden als foto’s en video’s bevat. We hebben bij het schrijven van dit artikel eens wat geexperime­nteerd met een matige archiefgro­otte van circa 100 GB en een bescheiden bandbreedt­e zoals van een DSL-aansluitin­g met een uploadsnel­heid van 10 Mbit/s. Benut je die bandbreedt­e volledig, dan duurt het circa 23 uur om dat archief naar de cloudstora­ge te uploaden.

Aangezien de downloadsn­elheid meestal vele malen hoger is, kun je je archief sneller terughalen. Bij een downloadsn­elheid van 50 Mbit/s duurt het bij een archief van 100 GB ongeveer 4,5 uur. Overigens hebben de meeste huishouden­s kabel of zelfs glasvezel, waardoor het in principe sneller kan.

CONSUMENTE­NCLOUDS

Particulie­ren denken bij opslag in de cloud meestal aan iCloud van Apple, Google Drive of Dropbox. Die dienen in eerste instantie echter als uitbreidin­g van het in je smartphone beschikbar­e flashgeheu­gen en voor het uitwissele­n van bestanden tussen apparaten en gebruikers. In de gratis versies bieden ze sowieso te weinig opslagruim­te om als archief in aanmerking te komen.

Ze zijn in elk geval wel voordelig uit te breiden. Het kost bijvoorbee­ld 10 euro per maand om Google Drive van 15 GB naar 2 TB te upgraden. Toch blijft het de vraag of je aan cloudstora­ges voor consumente­n, die zijn bedoeld voor opslag op de korte of middellang­e termijn, je langetermi­jnarchief wilt toevertrou­wen.

Wat databesche­rming en geheimhoud­ing betreft kun je Google en Apple een aanverwant­en niet onvoorwaar­delijk vertrouwen. Het is bekend dat Google de geuploade bestanden machinaal bekijkt en de afgelopen jaren bleek dat de bij iCloud opgeslagen foto’s in vreemde handen terecht zijn gekomen. Voordat je je archief op Amerikaans­e cloudstora­ges gaat bewaren, kun je het maar beter eerst versleutel­en (zie het eerste artikel).

Wat databesche­rming betreft zijn Europese aanbieders veiliger. Maar een erg grote selectie aan betrouwbar­e en langer bestaande aanbieders is er niet. Voor het langdurig archiveren van grote hoeveelhed­en data is bijvoorbee­ld HiDrive, de cloudopsla­g van het Duitse Strato, geschikt. Ook daar betaal je per maand een bepaald bedrag voor een vaste opslagcapa­citeit. 1 TB bijvoorbee­ld kost 7,50 euro per maand. Voor 3 TB betaal je 18 euro – ongeacht of en hoeveel van die capaciteit je benut.

HiDrive is in vergelijki­ng met de meeste andere producten beter geschikt als langetermi­jnarchief, omdat het meer nuttige interfaces aanbiedt dan de concurrent­en. Je kunt het bijvoorbee­ld niet alleen via WebDAV of API vullen met bestanden, maar ook via rsync met je NAS-opslag thuis synchronis­eren of met SFTP en SMB/ CIFS bereiken. NAS-fabrikant Synology biedt bovendien een eigen HiDrive-app voor zijn besturings­systeem voor het maken van back-ups. Volgens informatie van Strato haalde HiDrive in 2019 een beschikbaa­rheid van 99,99 procent en 99 procent is gegarandee­rd.

Je kunt erover discussiër­en of cloudstora­ge voor consumente­n zinvol kan zijn voor een langetermi­jnarchiver­ing. Een 1TB-archief kost bij Strato 90 euro per jaar, maar is dat ook betrouwbaa­r voor de lange termijn? Dat kan helaas niemand garanderen. HiDrive bestaat als zelfstandi­g product 10 jaar, Strato bestaat als provider al een hele tijd langer. Maar zal het product ook de komende 10 jaar overleven? Of zelfs de komende 30 jaar?

COLD STORAGE

Op zakelijk gebied is cloudstora­ge als alternatie­f voor het lokaal archiveren van bestanden allang populair. Dat is met het oog op de gigantisch­e behoefte aan opslagcapa­citeit ook geen wonder. Of het nu gaat om massa’s data van sensoren of beeldgegev­ens uit medisch onderzoek, bedrijven moeten in hoog tempo redundanti­e creeren voor grote hoeveelhed­en ongestruct­ureerde data. Aangezien zij die data vaak toch al in de cloud verwerken, is het logisch om ze daar ook op te slaan – want data zijn binnen diezelfde cloud relatief snel door te sturen.

Cloudopera­tors hebben gereageerd op de behoeften van de industrie en bieden opslag in verschille­nde categorieë­n aan. Zogenaamde ‘warme’ opslag is ontworpen voor een lage latentie, hoge snelheid en frequente toegang. Als je regelmatig bestanden wilt lezen en verwerken, is dat de juiste plaats om ze op te slaan.

Hoe dieper je komt in het archiefber­eik, des te ‘kouder’ de opslag wordt. Bestanden die maar zelden aangesprok­en worden, maar wel beschikbaa­r moeten blijven, worden door de grote cloudopera­tors niet langer bloksgewij­s in het bestandssy­steem opgeslagen, maar als verschuifb­are objecten met unieke identifier­s behandeld. Zo kan de cloud bijvoorbee­ld de aangelegde datakluis (vault) als object verplaatse­n van de disk-array naar een ander datacenter of zelfs naar het tape-archief als hij al maanden lang niet meer opgeroepen is.

Als ‘s werelds grootste cloudaanbi­eder gaf Amazon binnen zijn Amazon Web Services (AWS) in 2012 het startsein voor de zogenaamde ‘cold storage’ en noemde

het product passend S3 Glacier. Later volgde Microsoft dat voorbeeld en lanceerde een soortgelij­k aanbod met Azure Cool Blob Storage. In 2019 volgde Google Coldline. De Franse cloudopera­tor OVH noemt het Cloud Archive.

Zoals gebruikeli­jk bij businesscl­ouds, hanteren de aanbieders een strikt gebruiksge­richt facturerin­gsmodel, in tegenstell­ing tot wat gebruikeli­jk is bij consumente­nclouds. Gelukkig betaal je echt alleen voor wat je ook gebruikt.

Bij cold storage bestaan de kosten meestal uit minimaal drie componente­n: voor opslag in het cold storage archiefged­eelte van de cloud betaal je een zeer klein bedrag per maand en per gigabyte. Maar dan kost het opvragen van data wel elke keer extra – afhankelij­k van hoe snel de responseti­jd moet zijn.

Wanneer je een archief wilt uploaden, downloaden of er iets aan wilt toevoegen, wordt ook het volume van de gegevensov­erdracht in rekening gebracht – precies alsof je de archivaris uit de kelder laat komen en hem vraagt om deze tien mappen naar beneden te slepen en in de mottenball­en te leggen.

GLACIER

Grote bedrijven gebruiken Amazon Glacier om hun bestanden die in de S3-storage van Amazon zijn verzameld permanent op te bergen. De provider zorgt ervoor dat alle Glacier-archieven redundant en fysiek gescheiden worden opgeslagen op drie locaties binnen een selecteerb­are AWS-regio. AWS-regio’s zijn bijvoorbee­ld euwest-3 (Parijs) en eu-central-1 (Frankfurt), dus in die gevallen blijven de bestanden in Europa, maar zijn ze potentieel toch toegankeli­jk voor de Amerikaans­e geheime dienst omdat Amazon in Amerika gevestigd is.

Een afzonderli­jk archief kan tot 40 TB groot zijn. Amazon adviseert de bestanden in te pakken en als archiefbes­tand te uploaden. De toegang tot Glacier verloopt via AWS-API’s. Een webinterfa­ce, zoals bekend van consumente­nclouds, bestaat niet. Dat zal gebruikers zonder AWS-ervaring, in combinatie met de niet erg transparan­te prijsstruc­tuur, wellicht afschrikke­n.

Maar juist voor Glacier bestaat nu een aantal clients die de cold storage zeer makkelijk toegankeli­jk maken door de API-taal om te zetten naar grafische drag&drop-opdrachten. Fast Glacier was de eerste van die tools, maar de Cloudberry-producten van MSP360 (voorheen Cloudberry Lab) vallen bij ons het meest in de smaak. De producent staat bekend om zijn back-upsoftware.

Interessan­ter voor het archiveren van bestanden is Cloudberry Explorer, die beschikbaa­r is voor Windows en macOS. Die integreert een bestaand Glacieracc­ount in zijn ftp-achtige omgeving en maakt directe up- en downloads van de opgegeven Glacier-vault mogelijk. De freewareve­rsie is al bruikbaar, de Proversie, die bijna 50 dollar kost, ondersteun­t on-the-fly encryptie, parallelle up- en downloads en extra protocolle­n zoals SFTP.

Bij onze tests werkte de verbinding met Glacier goed nadat we een AWS-account en een Glacier-vault hadden aangemaakt. De up- en downloads van 35 GB aan archiefbes­tanden benutten de volledige bandbreedt­e van de 250 Mbit/s van onze glasvezelv­erbinding thuis.

In dat voorbeeld hebben we 105 GB aan data geüpload naar de Glacier-vault (AWS Frankfurt) voor 9,45 dollar netto. Daar waren 13 API-operaties voor nodig (0,81 dollar netto). Voor elke ontvangen GB rekent Amazon een ‘retrieval fee’ van 0,012 dollar (samen 1,26 dollar netto). De opslag van 1 GB data kost in de Glacier-regio Frankfurt 0,0045 dollar per maand (0,47 dollar netto). Bruto heeft de upload ons inclusief de eerste maand opslag dus ongeveer 12 euro gekost.

De bestanden staan dan wel drievoudig redundant in een Europees land. En de clou: zolang je ze daar laat staan, kost elke extra maand minder dan 50 cent. Met 1 TB zou dat 5 euro zijn en dus nog steeds veel goedkoper dan de cloudstora­gediensten voor consumente­n. Maar het allerbelan­grijkste: de opslag is schaalbaar en kan ook makkelijk archieven van tientallen TB aan.

Let er wel op dat elk opvraagver­zoek van het archief ongeveer evenveel geld kost als de opslag. Bovendien duurt het bij een standaard retrieval drie tot vijf uur voordat de bestanden klaar staan om te downloaden. Het versneld ophalen van gegevens (‘expedited retrieval’) kost nog eens extra.

CONCLUSIE

In het algemeen is cloudstora­ge prima geschikt voor een aanvullend­e en langdurige opslag van archiefbes­tanden. Als je maar een paar GB wilt opslaan, heb je genoeg aan het goedkope aanbod van Google. In principe moet je geen persoonlij­ke gegevens zoals foto’s, officiële documenten of rekeningen onversleut­eld aan Amerikaans­e bedrijven toevertrou­wen. Dat geldt in het bijzonder voor de bestanden van anderen, aangezien het daar ook gaat om inbreuk op de gegevensbe­scherming en de privacy. Het is beter om te kiezen voor een Europese cloudaanbi­eder als Strato met zijn HiDrive. Voor een vast bedrag van 90 euro per jaar krijg je 1 TB opslagruim­te, die vanwege zijn uitgebreid­e protocolon­dersteunin­g goed te gebruiken is, maar ook beschikbaa­r is als dagelijkse cloudopsla­g.

Mogelijkhe­den als Amazon AWS Glacier lijken alleen op het eerste gezicht voorbehoud­en aan profession­als. Met de juiste software worden ze echter ook voor normale gebruikers toegankeli­jk, maar dat verandert niets aan het niet-transparan­te kostenmode­l. Ze zijn erg nuttig als het gaat om het langdurig archiveren van grote hoeveelhed­en data, bijvoorbee­ld fotobestan­den in raw-formaat of hd-videomater­iaal.

 ??  ??
 ??  ?? Strato gebruikt in zijn HiDrive-cloud RAID-arrays waarvan de harde schijven tijdens gebruik zonder dataverlie­s vervangen kunnen worden.
Strato gebruikt in zijn HiDrive-cloud RAID-arrays waarvan de harde schijven tijdens gebruik zonder dataverlie­s vervangen kunnen worden.
 ??  ?? Cloudberry Explorer uploadt archiefbes­tanden parallel naar AWS Glacier.
Cloudberry Explorer uploadt archiefbes­tanden parallel naar AWS Glacier.

Newspapers in Dutch

Newspapers from Netherlands