Nvidias DGX-2 – die wahrscheinlich größte Graphic Processing Unit der Welt
Der Grafikchip-Spezialist Nvidia hat einen neuen Superrechner speziell für Aufgaben rund um künstliche Intelligenz (KI) und Machine Learning vorgestellt. Firmenchef Jensen Huang bezeichnete das System „DGX-2“Ende März auf der hauseigenen GPU Technology Conference (GTC) als „die größte GPU der Welt“. Der Hochleistungsrechner arbeitet mit zwei Platinen, die jeweils mit acht TeslaV100-GPUs bestückt sind. Jede der 16 GPUs wird von 32 GB HBM2RAM (High Bandwidth Memory) unterstützt. Für die Datenübertragung zwischen den einzelnen GPUs hat Nvidia eine neue spezielle Steuerungstechnik entwickelt. NVSwitch basiert auf Chips, die 18 NVLink-Ports bieten. Jeder Port erlaubt einen Datendurchsatz von 50 GB pro Sekunde. Das bedeutet: Jeder NVSwitch-Chip schafft 900 GB pro Sekunde. Mit insgesamt zwölf Chips kommt der DGX-2 auf einen theoretischen Datendurchsatz von 10,8 TB pro Sekunde. Das entspräche einem Download von 14.000 Kinofilmen pro Sekunde, vergleicht Jensen Huang. Die Hauptaufgabe für den DGX-2 dürfte allerdings darin liegen, neuronale Netze zu trainieren. Dabei soll das neue System deutlich schneller sein als sein Vorgänger. Für ein Training, das auf dem DGX-1 rund 15 Tage dauerte, soll der Nachfolger nur noch eineinhalb Tage benötigen. Neben dem neuen Superrechner hat Nvidia auf seiner Hauskonferenz ein Multi-Cloud-GPU-Cluster auf Basis von Kubernetes gezeigt. Fallen GPU-Server aus, erkennt dies Kubernetes automatisch und kann andere Systeme, auch aus einer anderen Cloud, automatisch dazuschalten.
Der Grafikchipspezialist will zudem künftig enger mit ARM kooperieren. Der Chipdesigner will Nvidias Deep-Learning-Architektur NVDLA in sein Projekt „Trillium“integrieren. Dahinter steckt die Absicht von ARM, KIund Machine-Learning-Funktionen in Geräten im Internet of Things (IoT) zu integrieren.