Zum Hauptinhalt springen
Version: 3.0.0-alpha (Diátaxis)

Konzepte — GPU

Architektur

Hikube ermöglicht es, NVIDIA-GPUs direkt an virtuelle Maschinen und Kubernetes-Cluster anzuhängen. Die GPU-Zuweisung wird auf Kubernetes-Seite durch den NVIDIA GPU Operator und auf VM-Seite (KubeVirt) durch PCI Passthrough verwaltet.


Terminologie

BegriffBeschreibung
GPU OperatorNVIDIA GPU Operator — verwaltet automatisch die Treiber, das Device Plugin und die GPU-Laufzeitumgebung auf den Kubernetes-Knoten.
Device PluginKubernetes-Plugin, das GPUs als planbare Ressourcen exponiert (nvidia.com/<model>).
PCI PassthroughTechnik, die einen physischen GPU direkt einer VM zuweist und native Leistung bietet.
CUDANVIDIA-Plattform für paralleles Rechnen, verwendet für GPU-Beschleunigung (ML, HPC, Rendering).
Instance TypeCPU/RAM-Ressourcenprofil der VM. Dimensioniert nach der Anzahl der GPUs (8-16 vCPU pro GPU empfohlen).

Verfügbare GPU-Typen

GPUArchitekturSpeicherLeistung (INT8)Anwendungsfall
L40SAda Lovelace48 GB GDDR6362 TOPSInferenz, Entwicklung, Prototyping
A100Ampere80 GB HBM2e312 TOPSML-Training, Fine-Tuning
H100Hopper80 GB HBM31979 TOPSLLM, Exascale-Rechnen, verteiltes Training

GPU-Bezeichner in den Manifesten

GPUWert gpus[].name / nvidia.com/
L40Snvidia.com/AD102GL_L40S
A100nvidia.com/GA100_A100_PCIE_80GB
H100nvidia.com/H100_94GB

GPU auf virtuellen Maschinen

GPUs werden über PCI Passthrough an VMs angehängt:

  • Der physische GPU ist der VM dediziert (native Leistung)
  • Deklariert in spec.gpus[] des VMInstance-Manifests
  • Multi-GPU möglich (Einträge in gpus[] wiederholen)
  • NVIDIA-Treiber müssen in der VM installiert werden
Empfohlenes CPU/GPU-Verhältnis

Planen Sie 8 bis 16 vCPU pro GPU. Für einen einzelnen GPU ist ein u1.2xlarge (8 vCPU, 32 GB RAM) ein guter Ausgangspunkt.


GPU auf Kubernetes

GPUs werden den Pods über das NVIDIA Device Plugin exponiert:

  • Der GPU Operator muss auf dem Cluster aktiviert sein (plugins.gpu-operator.enabled: true)
  • Pods fordern einen GPU über resources.limits an (z.B.: nvidia.com/AD102GL_L40S: 1)
  • Der Kubernetes-Scheduler platziert den Pod auf einem Knoten mit dem angeforderten GPU
  • GPU-Knoten werden in den Node Groups mit dem Feld gpus[] konfiguriert

Vergleich VM vs Kubernetes

KriteriumGPU auf VMGPU auf Kubernetes
IsolationDedizierter GPU (Passthrough)Geteilter GPU via Device Plugin
LeistungNative LeistungNative Leistung
FlexibilitätVollständiges OS, manuelle TreiberContainer, automatische Skalierung
Multi-GPUÜber spec.gpus[]Über resources.limits
AnwendungsfallWorkstations, interaktive UmgebungenML-Pipelines, Inferenz im großen Maßstab

Limits und Quotas

ParameterWert
GPU pro VMMehrere (je nach Verfügbarkeit)
GPU pro Kubernetes-PodMehrere (über resources.limits)
GPU-TypenL40S, A100, H100
Max. GPU-Speicher80 GB (A100/H100)

Weiterführende Informationen