Archiveren in de cloud
Cloudopslag wordt door veel mensen gezien als een vreemde eend in de bijt onder de archiveringsopties. Grote bedrijven kunnen echter al lang niet meer zonder de langetermijnopslag die Amazon, Microsoft of andere grote cloudexploitanten bieden. Cloudstorage kan een nuttige aanvulling zijn op een archiveringsstrategie.
Bij het langdurig archiveren van digitale bestanden spelen factoren als houdbaarheid van de media, temperatuur en opslaglocatie een grote rol. Je hoeft je daar niet per se mee bezig te houden, want er zijn bedrijven die deze taak van je overnemen, namelijk de aanbieders van online opslag.
Cloudstorage is in die zin wellicht als metamedium te beschouwen: de te bewaren bestanden komen via internet op een bepaald adres terecht. Achter dat adres gaat echter geen concrete opslaglocatie schuil, zoals een bepaald opslagsysteem in een serverrack van een datacenter. Waar de aan een clouddienst toevertrouwde bestanden staan, weet alleen de dienst zelf. Daaruit volgt dat je bij langetermijnarchivering in de cloud niet het medium moet vertrouwen, maar de aanbieder.
De voordelen van cloudstorage liggen voor de hand: alle archiefgegevens zijn fysiek gescheiden van hun originelen. Brand of andere rampen kunnen de kopieën niet beschadigen – vergelijkbaar met de harde schijf in een kluisje. Je kunt ervan uitgaan dat elke serieuze aanbieder van cloudstorage minstens één redundantielaag in acht neemt – zij het als hardware-RAID, gespiegelde storage-arrays of in de vorm van tapekopieën.
De aanbieder neemt als contractpartner de verantwoordelijkheid voor de bestanden over op het moment dat hij ze in ontvangst neemt. Welke garanties je daarbij krijgt vind je als privéklant in de algemene voorwaarden en als zakelijke klant meestal in de Service Level Agreement (SLA). Meestal is in die contractvoorwaarden ook de beschikbaarheid van de opgeslagen bestanden per jaar gegarandeerd. Houdt de aanbieder zich niet aan dat percentage, dan is hij aansprakelijk en kom je in aanmerking voor een schadevergoeding.
Dat helpt echter weinig als er extreem waardevolle data-archieven in de cloud verloren gaan – wat al wel eens gebeurd is. Daarom mag cloudopslag nooit de enige bouwsteen zijn van een archiveringsstrategie, maar dient het als aanvulling.
INTERNETTOEGANG ALS BOTTLENECK
Vergeleken met fysiek gescheiden back-upmedia biedt de cloud nog een ander voordeel: het langetermijnarchief is overal vandaan toegankelijk. Ook het toegangsapparaat speelt geen rol, omdat niet bijvoorbeeld verouderde aansluitingen of bussystemen gebruikt worden, maar de actuele internetprotocollen en transportversleutelingen.
Dat de toegang uitsluitend via internet verloopt, betekent wel dat je afhankelijk bent van internettoegang en van de beschikbaarheid van de aanbieder. En juist in het particuliere domein kan de internetverbinding thuis een bottleneck vormen en bij het uploaden van grote archiefbestanden je geduld op de proef stellen.
Dat geldt vooral wanneer het archief, zoals meestal, ook multimediabestanden als foto’s en video’s bevat. We hebben bij het schrijven van dit artikel eens wat geexperimenteerd met een matige archiefgrootte van circa 100 GB en een bescheiden bandbreedte zoals van een DSL-aansluiting met een uploadsnelheid van 10 Mbit/s. Benut je die bandbreedte volledig, dan duurt het circa 23 uur om dat archief naar de cloudstorage te uploaden.
Aangezien de downloadsnelheid meestal vele malen hoger is, kun je je archief sneller terughalen. Bij een downloadsnelheid van 50 Mbit/s duurt het bij een archief van 100 GB ongeveer 4,5 uur. Overigens hebben de meeste huishoudens kabel of zelfs glasvezel, waardoor het in principe sneller kan.
CONSUMENTENCLOUDS
Particulieren denken bij opslag in de cloud meestal aan iCloud van Apple, Google Drive of Dropbox. Die dienen in eerste instantie echter als uitbreiding van het in je smartphone beschikbare flashgeheugen en voor het uitwisselen van bestanden tussen apparaten en gebruikers. In de gratis versies bieden ze sowieso te weinig opslagruimte om als archief in aanmerking te komen.
Ze zijn in elk geval wel voordelig uit te breiden. Het kost bijvoorbeeld 10 euro per maand om Google Drive van 15 GB naar 2 TB te upgraden. Toch blijft het de vraag of je aan cloudstorages voor consumenten, die zijn bedoeld voor opslag op de korte of middellange termijn, je langetermijnarchief wilt toevertrouwen.
Wat databescherming en geheimhouding betreft kun je Google en Apple een aanverwanten niet onvoorwaardelijk vertrouwen. Het is bekend dat Google de geuploade bestanden machinaal bekijkt en de afgelopen jaren bleek dat de bij iCloud opgeslagen foto’s in vreemde handen terecht zijn gekomen. Voordat je je archief op Amerikaanse cloudstorages gaat bewaren, kun je het maar beter eerst versleutelen (zie het eerste artikel).
Wat databescherming betreft zijn Europese aanbieders veiliger. Maar een erg grote selectie aan betrouwbare en langer bestaande aanbieders is er niet. Voor het langdurig archiveren van grote hoeveelheden data is bijvoorbeeld HiDrive, de cloudopslag van het Duitse Strato, geschikt. Ook daar betaal je per maand een bepaald bedrag voor een vaste opslagcapaciteit. 1 TB bijvoorbeeld kost 7,50 euro per maand. Voor 3 TB betaal je 18 euro – ongeacht of en hoeveel van die capaciteit je benut.
HiDrive is in vergelijking met de meeste andere producten beter geschikt als langetermijnarchief, omdat het meer nuttige interfaces aanbiedt dan de concurrenten. Je kunt het bijvoorbeeld niet alleen via WebDAV of API vullen met bestanden, maar ook via rsync met je NAS-opslag thuis synchroniseren of met SFTP en SMB/ CIFS bereiken. NAS-fabrikant Synology biedt bovendien een eigen HiDrive-app voor zijn besturingssysteem voor het maken van back-ups. Volgens informatie van Strato haalde HiDrive in 2019 een beschikbaarheid van 99,99 procent en 99 procent is gegarandeerd.
Je kunt erover discussiëren of cloudstorage voor consumenten zinvol kan zijn voor een langetermijnarchivering. Een 1TB-archief kost bij Strato 90 euro per jaar, maar is dat ook betrouwbaar voor de lange termijn? Dat kan helaas niemand garanderen. HiDrive bestaat als zelfstandig product 10 jaar, Strato bestaat als provider al een hele tijd langer. Maar zal het product ook de komende 10 jaar overleven? Of zelfs de komende 30 jaar?
COLD STORAGE
Op zakelijk gebied is cloudstorage als alternatief voor het lokaal archiveren van bestanden allang populair. Dat is met het oog op de gigantische behoefte aan opslagcapaciteit ook geen wonder. Of het nu gaat om massa’s data van sensoren of beeldgegevens uit medisch onderzoek, bedrijven moeten in hoog tempo redundantie creeren voor grote hoeveelheden ongestructureerde data. Aangezien zij die data vaak toch al in de cloud verwerken, is het logisch om ze daar ook op te slaan – want data zijn binnen diezelfde cloud relatief snel door te sturen.
Cloudoperators hebben gereageerd op de behoeften van de industrie en bieden opslag in verschillende categorieën aan. Zogenaamde ‘warme’ opslag is ontworpen voor een lage latentie, hoge snelheid en frequente toegang. Als je regelmatig bestanden wilt lezen en verwerken, is dat de juiste plaats om ze op te slaan.
Hoe dieper je komt in het archiefbereik, des te ‘kouder’ de opslag wordt. Bestanden die maar zelden aangesproken worden, maar wel beschikbaar moeten blijven, worden door de grote cloudoperators niet langer bloksgewijs in het bestandssysteem opgeslagen, maar als verschuifbare objecten met unieke identifiers behandeld. Zo kan de cloud bijvoorbeeld de aangelegde datakluis (vault) als object verplaatsen van de disk-array naar een ander datacenter of zelfs naar het tape-archief als hij al maanden lang niet meer opgeroepen is.
Als ‘s werelds grootste cloudaanbieder gaf Amazon binnen zijn Amazon Web Services (AWS) in 2012 het startsein voor de zogenaamde ‘cold storage’ en noemde
het product passend S3 Glacier. Later volgde Microsoft dat voorbeeld en lanceerde een soortgelijk aanbod met Azure Cool Blob Storage. In 2019 volgde Google Coldline. De Franse cloudoperator OVH noemt het Cloud Archive.
Zoals gebruikelijk bij businessclouds, hanteren de aanbieders een strikt gebruiksgericht factureringsmodel, in tegenstelling tot wat gebruikelijk is bij consumentenclouds. Gelukkig betaal je echt alleen voor wat je ook gebruikt.
Bij cold storage bestaan de kosten meestal uit minimaal drie componenten: voor opslag in het cold storage archiefgedeelte van de cloud betaal je een zeer klein bedrag per maand en per gigabyte. Maar dan kost het opvragen van data wel elke keer extra – afhankelijk van hoe snel de responsetijd moet zijn.
Wanneer je een archief wilt uploaden, downloaden of er iets aan wilt toevoegen, wordt ook het volume van de gegevensoverdracht in rekening gebracht – precies alsof je de archivaris uit de kelder laat komen en hem vraagt om deze tien mappen naar beneden te slepen en in de mottenballen te leggen.
GLACIER
Grote bedrijven gebruiken Amazon Glacier om hun bestanden die in de S3-storage van Amazon zijn verzameld permanent op te bergen. De provider zorgt ervoor dat alle Glacier-archieven redundant en fysiek gescheiden worden opgeslagen op drie locaties binnen een selecteerbare AWS-regio. AWS-regio’s zijn bijvoorbeeld euwest-3 (Parijs) en eu-central-1 (Frankfurt), dus in die gevallen blijven de bestanden in Europa, maar zijn ze potentieel toch toegankelijk voor de Amerikaanse geheime dienst omdat Amazon in Amerika gevestigd is.
Een afzonderlijk archief kan tot 40 TB groot zijn. Amazon adviseert de bestanden in te pakken en als archiefbestand te uploaden. De toegang tot Glacier verloopt via AWS-API’s. Een webinterface, zoals bekend van consumentenclouds, bestaat niet. Dat zal gebruikers zonder AWS-ervaring, in combinatie met de niet erg transparante prijsstructuur, wellicht afschrikken.
Maar juist voor Glacier bestaat nu een aantal clients die de cold storage zeer makkelijk toegankelijk maken door de API-taal om te zetten naar grafische drag&drop-opdrachten. Fast Glacier was de eerste van die tools, maar de Cloudberry-producten van MSP360 (voorheen Cloudberry Lab) vallen bij ons het meest in de smaak. De producent staat bekend om zijn back-upsoftware.
Interessanter voor het archiveren van bestanden is Cloudberry Explorer, die beschikbaar is voor Windows en macOS. Die integreert een bestaand Glacieraccount in zijn ftp-achtige omgeving en maakt directe up- en downloads van de opgegeven Glacier-vault mogelijk. De freewareversie is al bruikbaar, de Proversie, die bijna 50 dollar kost, ondersteunt on-the-fly encryptie, parallelle up- en downloads en extra protocollen zoals SFTP.
Bij onze tests werkte de verbinding met Glacier goed nadat we een AWS-account en een Glacier-vault hadden aangemaakt. De up- en downloads van 35 GB aan archiefbestanden benutten de volledige bandbreedte van de 250 Mbit/s van onze glasvezelverbinding thuis.
In dat voorbeeld hebben we 105 GB aan data geüpload naar de Glacier-vault (AWS Frankfurt) voor 9,45 dollar netto. Daar waren 13 API-operaties voor nodig (0,81 dollar netto). Voor elke ontvangen GB rekent Amazon een ‘retrieval fee’ van 0,012 dollar (samen 1,26 dollar netto). De opslag van 1 GB data kost in de Glacier-regio Frankfurt 0,0045 dollar per maand (0,47 dollar netto). Bruto heeft de upload ons inclusief de eerste maand opslag dus ongeveer 12 euro gekost.
De bestanden staan dan wel drievoudig redundant in een Europees land. En de clou: zolang je ze daar laat staan, kost elke extra maand minder dan 50 cent. Met 1 TB zou dat 5 euro zijn en dus nog steeds veel goedkoper dan de cloudstoragediensten voor consumenten. Maar het allerbelangrijkste: de opslag is schaalbaar en kan ook makkelijk archieven van tientallen TB aan.
Let er wel op dat elk opvraagverzoek van het archief ongeveer evenveel geld kost als de opslag. Bovendien duurt het bij een standaard retrieval drie tot vijf uur voordat de bestanden klaar staan om te downloaden. Het versneld ophalen van gegevens (‘expedited retrieval’) kost nog eens extra.
CONCLUSIE
In het algemeen is cloudstorage prima geschikt voor een aanvullende en langdurige opslag van archiefbestanden. Als je maar een paar GB wilt opslaan, heb je genoeg aan het goedkope aanbod van Google. In principe moet je geen persoonlijke gegevens zoals foto’s, officiële documenten of rekeningen onversleuteld aan Amerikaanse bedrijven toevertrouwen. Dat geldt in het bijzonder voor de bestanden van anderen, aangezien het daar ook gaat om inbreuk op de gegevensbescherming en de privacy. Het is beter om te kiezen voor een Europese cloudaanbieder als Strato met zijn HiDrive. Voor een vast bedrag van 90 euro per jaar krijg je 1 TB opslagruimte, die vanwege zijn uitgebreide protocolondersteuning goed te gebruiken is, maar ook beschikbaar is als dagelijkse cloudopslag.
Mogelijkheden als Amazon AWS Glacier lijken alleen op het eerste gezicht voorbehouden aan professionals. Met de juiste software worden ze echter ook voor normale gebruikers toegankelijk, maar dat verandert niets aan het niet-transparante kostenmodel. Ze zijn erg nuttig als het gaat om het langdurig archiveren van grote hoeveelheden data, bijvoorbeeld fotobestanden in raw-formaat of hd-videomateriaal.