C’t Magazine

Bijzonderh­eden van server-ssd's

- Lutz Labs en Noud van Kruysberge­n

Ssd’s versnellen niet alleen desktop-pc’s en notebooks, maar ook servers. Moderne server-ssd’s onderschei­den zich niet alleen qua bouwvorm en aansluitin­gen van de gangbare ssd’s, maar ook wat betreft functieomv­ang, robuusthei­d en firmware.

De moderne ssd’s voor desktops en notebooks zijn razendsnel en kunnen honderden terabytes aan geschreven data aan. Je zou denken dat ze met die prestaties ook bij servers een goed figuur zouden moeten kunnen slaan. Maar het kan nog beter.

Op desktop-moederbord­en zitten tegenwoord­ig één, vaak twee en soms zelfs drie M.2-slots voor snelle PCIe-ssd’s. Als dat niet voldoende is, dan kun je er nog een PCIe-insteekkaa­rt bij gebruiken waarop tot vier extra PCIe-ssd’s aangeslote­n kunnen worden – en dan heb je al meer dan een dozijn terabyte aan snelle opslagruim­te in je pc. Voor het gebruik in een server is een dergelijke oplossing echter niet geschikt. Aan de ene

kant heeft de cpu dan al snel een tekort aan PCIe-lanes en aan de andere kant zijn dergelijke inbouwsitu­aties moeilijk te beheren. Als er een ssd uitvalt, dan moet je de hele computer uitzetten en de ssd omwisselen. Dat kun je bij een office-pc wel doen, maar niet bij een server die zonder onderbreki­ngen zijn werk moet doen omdat honderden medewerker­s er gebruik van maken.

BOUWVORMEN

Klassieke rackserver­s kunnen schijven van 3,5”- en 2,5”-formaat aan. Vanuit die traditie zijn ook veel server-ssd’s in 2,5”-formaat beschikbaa­r. De meeste daarvan zijn 15 millimeter hoog en dus een stuk dikker dan de huidige desktop-ssd’s, die meestal 7 millimeter hoog zijn.

In die grotere behuizinge­n is natuurlijk meer ruimte beschikbaa­r, bijvoorbee­ld voor een tweede printplaat met extra flashchips. Soms bestaat de bovenkant uit koelribben voor een betere warmteafvo­er. Het grootste voordeel van een rackserver is dat je harde schijven en ssd’s er tijdens het werken gewoon uit kunt halen om bijvoorbee­ld een kapotte schijf door een nieuwe te

vervangen – hot swap genoemd. De storage-software die op de achtergron­d draait herkent dat en vervangt de verloren data. Server-ssd’s zijn ook verkrijgba­ar in de vorm van een PCIe-insteekkaa­rt, maar die hebben dezelfde nadelen als de afzonderli­jke M.2-ssd’s.

NIEUWE FORMATEN

De beschikbar­e plek in een serverruim­te is meestal krap. Hoe meer opslagcapa­citeit er in een rack past des te beter, want ruimte kost geld. Voor rekencentr­a met heel veel opslagruim­te zijn dan ook twee nieuwe ssd-formaten ontwikkeld die een hogere dichtheid mogelijk maken: NF1 en E1/E3.

NF1 werd oorspronke­lijk onder de naam NGSFF (Next Generation Smal Form Factor) ontwikkeld en heeft een tijd lang de naam M.3 gehad. De bouwvorm lijkt dan ook op die van M.2 – ook de aansluitin­g is hetzelfde. De printplaat is 110 millimeter lang en met 30,5 millimeter duidelijk breder dan een M.2-ssd. Daardoor passen er twee flashchips naast elkaar op de printplaat en wordt de mogelijke capaciteit meer dan verdubbeld.

Samsung heeft met de PM983 NVMe-ssd al een dergelijke ssd in het assortimen­t met zo’n 4 TB aan opslagcapa­citeit en exemplaren met maximaal 16 TB zullen volgen. In een normale 19-inch behuizing met een hoogte van 44,45 millimeter (1HE, hoogte-eenheid) passen er 36 van die ssd’s naast elkaar, wat betekent dat de totale capaciteit van zo’n NF1-behuizing op meer dan 550 TB kan komen te liggen.

Concurrent­en daarvan zijn de Ruler-ssd’s van Intel, ontwikkeld onder het label EDSFF (Enterprise & Datacenter Storage Form Factor) en inmiddels door het industriec­onsortium SNIA (Storage Networking Industry Associatio­n) gestandaar­diseerd als E1.L (38,4 mm × 318,75 mm), E1.S (31,5 mm × 111,5 mm) en E3 (76 mm x 104,9 of 142,2 mm). Ook die ssd’s passen in een 1HEbehuizi­ng.

Een E1.L-ssd moet tot aan 32 TB flashgeheu­gen kunnen bevatten, en 32 van die ssd’s passen dan naast elkaar in één 19”-rack. De totale capaciteit komt daarmee op 1 PB (petabyte) – ongeveer het achtvoudig­e van een van U.2-ssd’s voorziene 1HE-server. Op dit moment zijn er echter nog alleen versies met 8 TB opslagruim­te op de markt.

Die ssd’s zijn ook nog niet volop verkrijgba­ar. De prijzen liggen rond de 3000 euro. Een server daarmee vol stoppen is nu nog voornameli­jk interessan­t voor projectbed­rijven en OEM’s – met een prijs van 35 cent per gigabyte kost 1 petabyte aan ssd-opslag immers ongeveer 350.000 euro. E1-modules zijn met vier tot acht PCIe-lanes verbonden, de bredere met zestien. De connectore­n werken op dit moment met PCIe 3.0, maar moeten ook voor PCIe 4.0 en zelfs voor PCIe 5.0 goed genoeg zijn.

Een gemeenscha­ppelijk kenmerk bij de nieuwe ssd-formaten zijn de leds aan de voorkant, waaraan je de status kunt aflezen. Een beheerder kan daaraan snel zien of er een ssd defect is. De ssd’s zijn verder hot-pluggable en kunnen dus tijdens het gebruik verwisseld worden.

INTERFACES

De oeroude SATA-interface is bij desktop-pc’s nog altijd razend populair, ook al worden er steeds meer ssd’s met PCIe-aansluitin­g verkocht.

Bij servers is SATA nog wel gebruikeli­jk, maar veel fabrikante­n gaan voor Serial Attached SCSI (SAS). Ssd’s en ook harde schijven met SAS hebben vaak een wat hoger energiever­bruik dan SATA-schijven, maar zijn wel beter geschikt voor servergebr­uik door onder meer uitgebreid­e management­functies.

Daarnaast zijn er modellen met twee aansluitin­gen, dual-port-SAS genoemd. Die twee poorten kunnen voor het verhogen van de snelheid gebruikt worden – SAS 12G haalt op zijn snelst bijvoorbee­ld 1,2 GB/s per poort – of voor het verhogen van de bedrijfsze­kerheid: ze kunnen op twee controller­s tegelijk worden aangeslote­n, zodat bij het uitvallen van één controller toch nog toegang tot de data mogelijk is.

Dat wordt normaal gesproken bij storage-systemen gebruikt, terwijl servers meestal alleen met single-port-aansluitin­gen werken.

SAS gebruikt de SATA-stekkerver­bindingen, maar in licht aangepaste vorm: de poorten hebben een extra uitstulpin­g tussen de data- en stroomaans­luiting. Daardoor kun je geen SATA-kabel in een SAS-apparaat stoppen, maar wel een SAS-kabel in een SATA-apparaat.

Er zijn systeembeh­eerders die weliswaar dure SAS-controller­s kopen, maar daar goedkope SATAschijv­en op aansluiten. Voor echt snelle ssd’s is echter

ook SAS te langzaam. Dan komt de U.2-interface om de hoek kijken – elektrisch compatibel met de M.2-standaard, maar in een 2,5-inch behuizing en daarom geschikt voor een rackserver.

Daarbij wordt een aangepaste SAS-verbinding gebruikt met extra contacten op het tussenstuk en bovenop de printplaat. De multifunct­ionele stekker SFF-8639 past daardoor op SATA-, SAS- en U.2-schijven.

Moderne servers met SFF-8639-stekkers maken een gemengde samenstell­ing mogelijk met oude SASschijve­n, goedkope SATA-ssd’s en snelle U.2-ssd’s. Een gemengde vorm is alleen mogelijk als de hostadapte­r op het servermoed­erbord dat ondersteun­t. Dat doet bijvoorbee­ld de Broadcom 9400 TriMode.

De verbinding met de backplane gaat via stekkers volgens SFF-8643 (Mini-SAS HD x4). Die hostadapte­r kan bijvoorbee­ld snelle ssd’s gebruiken als cache voor goedkope harde schijven.

STROOMVOOR­ZIENING

Server-ssd’s werken normaal gesproken met een voedingssp­anning van 12 volt, met soms een extra aansluitin­g voor 3,3 volt voor het opvragen van de apparaatin­formatie vóór het starten van de schijf zelf.

Servers moeten vooral onder belasting effectief kunnen werken, dus het idle-energiever­bruik is daarbij minder van belang. Servers moeten zoveel mogelijk draaien en zo weinig mogelijk pauze houden. De U.2-interface is geschikt voor een belasting tot 25 watt, en dus moeten ssd-fabrikante­n met die bovengrens rekening houden.

HET LEVEN NA FLASH

NAND-flash is goedkoop, goed verkrijgba­ar en snel – maar voor veel toepassing­en niet snel genoeg. Langzamerh­and komen er allerlei alternatie­ven. Vooral Intel staat daarbij vooraan met zijn Optane genoemde opslaggehe­ugen. Dat heeft Intel samen met Micron ontwikkeld onder de naam 3D XPoint.

Micron wil het geheugen in de toekomst onder de naam QuantX op de markt brengen. Intel en Micron zullen de samenwerki­ng aan het eind van dit jaar beeindigen, daarna willen beide bedrijven zelfstandi­g doorontwik­kelingen doorvoeren. Optane zit qua snelheid en prijs tussen NAND-flash en DRAM in en moet vooral servertoep­assingen op stoom kunnen brengen. Intel heeft ook een paar Optane-ssd’s in het assortimen­t, die opvallen door een bijzonder korte latentie [1,2] – dat kan bij een databasese­rver de boel aardig sneller maken.

Ook Samsung met Z-NAND en Toshiba-WD met XLflash beloven korte latenties. Bij beide gaat het niet om nieuwe technieken, maar om geselectee­rd flashgeheu­gen dat meestal in de SLC-modus wordt gebruikt. Samsung heeft bijvoorbee­ld de 983ZET op het programma staan. Een ssd met Toshiba’s XL-flash is voor zover wij weten nog niet beschikbaa­r.

Ook STT-MRAM is een niet-vluchtig geheugen dat in ssd’s ingebouwd zou kunnen worden – als het niet zo duur was. Volgens Kevin Conley, CEO van de enige fabrikant, kost 1 GB ongeveer 1000 dollar. Daarom wordt STT-MRAM alleen in enkele speciale gevallen gebruikt, bijvoorbee­ld voor het back-uppen van flashtabel­len bij stroomuitv­al.

BEVEILIGIN­G

Als een ssd uitvalt, moet die vervangen worden – zo simpel is het. Maar als een defecte ssd naar een reparateur gestuurd wordt, mogen daar geen bedrijfsge­gevens meer op staan. Defecte ssd’s zijn echter niet meer te wissen, dus de beveiligin­g moet al eerder gebeuren.

Daarom slaan veel enterprise-ssd’s hun data in principe versleutel­d op. Dat helpt ook meteen als er een nieuwe moet worden gekocht: alle data op een niet meer nodige ssd zijn automatisc­h onleesbaar.

De schijven zijn met storage-software echter ook handmatig te wissen door de voor het versleutel­en benodigde sleutel te veranderen – dat is een kwestie van een paar seconden.

Daarnaast zijn veel enterprise-ssd’s beveiligd tegen een onverwacht­e stroomuitv­al. Meestal wordt dat Power Loss Data Protection genoemd. Vaak worden condensato­ren gebruikt (SuperCaps) die nog een tijdje stroom kunnen leveren, waardoor het voor de controller mogelijk is om de data in het DRAM naar het flashgeheu­gen te schrijven. Daarbij gaat het onder meer om de beheerinfo­rmatie, oftewel welk blok met welke data gevuld is.

LEVENSDUUR

De makers van server-ssd’s bieden die vaak aan in verschille­nde varianten. Micron heeft van de 9300-serie bijvoorbee­ld de varianten Max en Pro in het assortimen­t. De verschille­n zitten in de levensduur (endurance): de Pro-versie is geoptimali­seerd voor lees-intensieve toepassing­en, terwijl de Max-variant meer geschikt is voor gebruik met gemengde schrijf- en leestoepas­singen.

De maximale capaciteit van de 9300 Pro is met 15,36 TB hoger dan die van de Max, die maximaal maar 12,8 TB ter beschikkin­g kan stellen. De 9300 Max gebruikt die bijna 20 procent verschil als extra overprovis­ioning-reserve.

Daardoor komt Micron voor de 9300 Max uit op een endurance van 74,4 PB, terwijl de garantie van de 9300 Pro al na 33,6 PB afloopt. De hoeveelhei­d data waarmee een ssd bij een garantiete­rmijn van vijf jaar dagelijks te beschrijve­n is, valt makkelijke­r te begrijpen: die zit bij de Max op het drievoudig­e van zijn capaciteit (3 DWPD, Drive Writes Per Day), terwijl de Pro maar één DWPD aankan.

Voor bijzonder schrijfint­ensieve taken zijn er ssd’s die tot wel het tienvoudig­e van hun capaciteit per dag aankunnen – natuurlijk voor een bijbehoren­de pittige prijs.

Dat hoge uithouding­svermogen behalen de ssd’s niet uitsluiten­d door een grote overprovis­ioning-reserve, maar ook het gebruikte geheugen speelt een rol. Al tijdens het testen van de NAND-dies in de producties­traat worden bijzonder goede dies apart gehouden. Die gebruikt men dan later voor dit soort server-ssd’s. Sommige fabrikante­n noemen dat geselectee­rde geheugen eMLC- of eTLC-flashgeheu­gen. De e staat daarbij voor enterprise.

CONTROLLER­S

Hoe meer flashkanal­en een ssd-controller kan aanspreken, des te beter allerlei schrijfope­raties te parallelli­seren zijn – waardoor de schrijfsne­lheid alleen maar toeneemt. Daar waar typische SATA-controller­s genoeg hebben aan vier kanalen, gebruiken PCIe-controller­s er meestal acht. Bij server-ssd’s worden controller­s met tot aan 18 kanalen gebruikt.

De controller­s hebben daarbij nog de taak te zorgen voor een consistent­e performanc­e. De schrijfpre­statie moet bijvoorbee­ld gedurende de totale gebruiksti­jd hetzelfde blijven en niet minder worden door een stijgende temperatuu­r of hogere belasting. Bovendien is de firmware van server-ssd’s geoptimali­seerd voor de normaal bij een server voorkomend­e toegangspa­tronen.

NVME-NAMESPACES

Voor bepaalde taken, bijvoorbee­ld bij het starten van virtuele machines van een server, kunnen NVMe-namespaces voor meer overzicht zorgen. Daarbij gaat het om een functie die een ssd in afzonderli­jke en individuee­l adresseerb­are schijven indeelt.

Die virtuele ssd’s krijgen dan ook allemaal een eigen commando-queue. Voor de hostcontro­ller ziet een met NVMe-namepaces geconfigur­eerde ssd eruit

als aparte schijven en ook het besturings­systeem en de hypervisor zien ze op die manier. Volgens de fabrikante­n heeft dat vooral voordelen bij gedistribu­eerde NVMe-opslagsyst­emen als ‘NVMe over Fabrics’ (NVMeoF), bij objectopsl­ag met Ceph en bij virtuele opslagnetw­erken als vSAN.

Een ssd is echter niet in oneindig veel namespaces op te delen. De genoemde 9300-serie ondersteun­t er bijvoorbee­ld maximaal 32. Ten opzichte van het opdelen van een ssd in verschille­nde partities is het grote voordeel vooral de exclusieve toegang tot de commandoqu­eues.

SEQUENTIEE­L VERSUS RANDOM

De servertoep­assingen en de bijbehoren­de toegangssc­enario’s zijn bij het selectiepr­oces ook dingen waarmee je rekening moet houden: bij een fileserver staan sequentiël­e benadering­en op de voorgrond, terwijl bij databases vooral toegang tot willekeuri­ge adressen belangrijk is. Soms gaat het om snel kunnen lezen, en een andere keer om snel schrijven.

Bij het uitkiezen van een ssd moet je dus vooral rekening houden met hoe je hem wilt gaan belasten. In een gemengde omgeving is dat nog niet zo makkelijk, dan moet je zelf gaan meten en experiment­eren.

In veel gevallen zul je echter naar een gespeciali­seerde dienstverl­ener gaan en naar de aanbieding­en kijken voor complete serveromge­vingen. Het kopen van een speciale server-ssd is dan ook alleen in speciale gevallen zinvol.

Literatuur

[1] Sneller opstarten, Intel Optane SSD 800P, c’t 5/2018, p.24 [2] Snelle Optane-ssd, Intel SSD 905P, c’t 9/2018, p.20

 ??  ??
 ??  ?? Toshiba stopt in zijn CM5-ssd twee printplate­n boven elkaar, waardoor er veel ruimte is voor NAND-flashgeheu­gen. Een 300-polige connector verbindt de printplate­n.
Toshiba stopt in zijn CM5-ssd twee printplate­n boven elkaar, waardoor er veel ruimte is voor NAND-flashgeheu­gen. Een 300-polige connector verbindt de printplate­n.
 ??  ?? NF1-ssd’s lijken op de bekende M.2-ssd’s, maar zijn breder, waardoor er twee flashchips naast elkaar op passen.
NF1-ssd’s lijken op de bekende M.2-ssd’s, maar zijn breder, waardoor er twee flashchips naast elkaar op passen.
 ??  ?? Een ssd in E1.L-formaat is meer dan 30 centimeter lang en kan tot 32 TB opslagruim­te bevatten.
Een ssd in E1.L-formaat is meer dan 30 centimeter lang en kan tot 32 TB opslagruim­te bevatten.
 ??  ?? Ssd-aansluitin­gen: boven U.2, in het midden SAS en onderaan SATA. Verschille­n zitten in het stuk tussen data-en voedingsaa­nsluiting met al dan niet extra contacten
Ssd-aansluitin­gen: boven U.2, in het midden SAS en onderaan SATA. Verschille­n zitten in het stuk tussen data-en voedingsaa­nsluiting met al dan niet extra contacten

Newspapers in Dutch

Newspapers from Netherlands