Ein CUDA-Kern ist eine der winzigen Recheneinheiten in einer NVIDIA-GPU, die die Routineaufgaben für Grafik und parallele Berechnungen übernimmt. Jeder Kern befindet sich in einem größeren Block, der als Streaming-Multiprozessor (SM) bezeichnet wird, und auf modernen GeForce „Blackwell”-GPUs enthält jeder SM 128 CUDA-Kerne. Deshalb sehen Sie auf einer RTX 5090 eine Gesamtzahl von 21.760 CUDA-Kernen. Der Chip verfügt einfach über viele SMs, die jeweils mit diesen Kernen ausgestattet sind.
CUDA (die Parallelrechnerplattform von NVIDIA) ist die Softwareseite der Geschichte: Sie ermöglicht es Apps und Frameworks, massiv parallele Aufgaben wie Rendering, KI und Simulation effizient an diese Kerne zu senden.
Stellen Sie sich eine GPU wie eine Fabrik vor, die für Massenaufträge ausgelegt ist. CUDA-Kerne verarbeiten Aufgaben in Warp-Gruppen von 32 Threads, die dieselbe Anweisung für unterschiedliche Daten ausführen (ein Modell, das NVIDIA als SIMT bezeichnet). Auf diese Weise können GPUs Tausende von Operationen gleichzeitig ausführen. Jeder SM verfügt über Scheduler, die viele Warps in Betrieb halten, um Speicherlatenzen zu verbergen und diese Kerne ausgelastet zu halten.
Ein nützliches mentales Bild:
Diese entlasten bestimmte Aufgaben, sodass sich die CUDA-Kerne auf Shading/Berechnungen konzentrieren können.
Bildnachweis: NVIDIA
Normalerweise schon, aber nicht allein. Die Architektur spielt eine große Rolle. Beispielsweise hat die Ampere-Generation von NVIDIA den FP32-Durchsatz pro SM im Vergleich zu Turing verdoppelt, sodass sich die Leistung „pro Kern“ zwischen den Generationen verändert hat. Ada hat auch die Caches (insbesondere L2) erheblich erweitert, was viele Workloads beschleunigt, ohne die Kernanzahl zu verändern. Kurz gesagt: Der Vergleich der CUDA-Kernanzahl verschiedener Generationen ist nicht aussagekräftig.
Weitere wichtige Einflussfaktoren:
Eine praktische Faustregel:
Wenn Sie eine schnelle Überprüfung der Skalierbarkeit wünschen, listet RTX 5090 21.760 CUDA-Kerne auf und zeigt damit, wie NVIDIA die Kerne pro SM über viele SMs hinweg zählt. Aber auch hier gilt: Die Leistungssteigerungen resultieren aus dem Gesamtdesign und nicht allein aus der Anzahl.
Bildnachweis: NVIDIA
Sie benötigen kein spezielles Kabel, aber Sie benötigen die richtige Software-Stack. CUDA ist die Plattform von NVIDIA; Anwendungen nutzen sie über Treiber, Toolkits und Bibliotheken. Viele beliebte Anwendungen und Frameworks sind bereits so konzipiert, dass sie die CUDA-Beschleunigung nutzen, sobald Ihre NVIDIA-Treiber und (falls erforderlich) das CUDA-Toolkit installiert sind. Unterstützte Anwendungen nutzen sie einfach.
CUDA läuft auf CUDA-fähigen NVIDIA-GPUs aller Produktreihen (GeForce/RTX für Gaming und Kreativarbeit, professionelle RTX- und Rechenzentrums-GPUs). Der Programmierleitfaden weist darauf hin, dass das Modell für viele GPU-Generationen und SKUs skalierbar ist. NVIDIA führt eine Liste der CUDA-fähigen GPUs und ihrer Rechenleistung.
Ist ein CUDA-Kern dasselbe wie ein „Shader-Kern“?
Im GPU-Alltagssprachgebrauch beziehen sich „CUDA-Kerne” bei NVIDIA-GPUs auf die programmierbaren FP32/INT32-ALUs, die für Shading und allgemeine Berechnungen innerhalb jedes SM verwendet werden.
Warum unterscheiden sich die CUDA-Kernzahlen zwischen den verschiedenen Generationen so stark?
Weil sich Architekturen weiterentwickeln. Ampere hat die FP32-Datenpfade geändert (mehr Arbeit pro Takt) und Ada hat die Caches überarbeitet, sodass die Leistung nicht linear mit der Anzahl der Kerne skaliert.
Was ist nochmal eine Kette?
Eine Gruppe von 32 Threads, die synchron auf dem SM ausgeführt werden. Apps starten Tausende von Threads; die GPU plant sie als Warps, um die Hardware auszulasten.
Sind CUDA-Kerne hilfreich für KI?
Ja, aber die großen Beschleuniger für moderne KI sind Tensor-Kerne. CUDA-Kerne übernehmen nach wie vor viele damit verbundene Aufgaben in diesen Pipelines.