Un núcleo CUDA es una de las diminutas unidades matemáticas que se encuentran dentro de una GPU NVIDIA y que realiza el trabajo pesado para los gráficos y el cálculo paralelo. Cada núcleo se encuentra dentro de un bloque más grande denominado multiprocesador de streaming (SM) y, en las modernas GPU GeForce «Blackwell», cada SM contiene 128 núcleos CUDA. Por eso verás recuentos totales como 21 760 núcleos CUDA en una RTX 5090. El chip simplemente tiene muchos SM, cada uno de ellos repleto de esos núcleos.
CUDA (la plataforma de computación paralela de NVIDIA) es la parte del software: permite que las aplicaciones y los marcos envíen de manera eficiente tareas masivas paralelas de renderización, inteligencia artificial y simulación a esos núcleos.
Piensa en una GPU como una fábrica diseñada para trabajos a gran escala. Los núcleos CUDA gestionan el trabajo en grupos de warps de 32 subprocesos que ejecutan la misma instrucción en diferentes datos (un modelo que NVIDIA denomina SIMT). Así es como las GPU procesan miles de operaciones a la vez. Cada SM tiene programadores que mantienen muchos warps en funcionamiento para ocultar la latencia de la memoria y mantener esos núcleos ocupados.
Una imagen mental útil:
Estas descargan tareas específicas para que los núcleos CUDA puedan centrarse en el sombreado/cálculo.
Crédito de la imagen: NVIDIA
Por lo general, pero no por sí solos. La arquitectura es muy importante. Por ejemplo, la generación Ampere de NVIDIA duplicó el rendimiento FP32 por SM en comparación con Turing, por lo que la potencia «por núcleo» cambió entre generaciones. Ada también amplió considerablemente las cachés (en particular la L2), lo que aumenta muchas cargas de trabajo sin cambiar el número de núcleos. En resumen: comparar el número de núcleos CUDA entre diferentes generaciones no es como comparar manzanas con manzanas.
Otros factores importantes:
Una regla general amistosa:
Si quieres comprobar rápidamente la escala, la RTX 5090 cuenta con 21 760 núcleos CUDA, lo que muestra cómo NVIDIA calcula los núcleos por SM en muchos SM. Pero, de nuevo, las mejoras en el rendimiento provienen del diseño total, no solo del recuento.
Crédito de la imagen: NVIDIA
No necesitas un cable especial, pero sí necesitas el software adecuado. CUDA es la plataforma de NVIDIA; las aplicaciones la utilizan a través de controladores, kits de herramientas y bibliotecas. Muchas aplicaciones y marcos populares ya están diseñados para aprovechar la aceleración CUDA una vez que se instalan los controladores NVIDIA y (cuando es necesario) el kit de herramientas CUDA. Las aplicaciones compatibles simplemente... lo utilizan.
CUDA funciona en GPU NVIDIA compatibles con CUDA en todas las líneas de productos (GeForce/RTX para juegos y creación, RTX profesional y GPU para centros de datos). La guía de programación señala que el modelo se adapta a muchas generaciones de GPU y referencias; NVIDIA mantiene una lista de GPU compatibles con CUDA y sus capacidades de cálculo.
¿Un núcleo CUDA es lo mismo que un «núcleo de sombreado»?
En el lenguaje cotidiano sobre GPU, sí, en las GPU NVIDIA, los «núcleos CUDA» se refieren a las ALU FP32/INT32 programables que se utilizan para el sombreado y el cálculo general dentro de cada SM.
¿Por qué varía tanto el número de núcleos CUDA entre generaciones?
Porque las arquitecturas evolucionan. Ampere cambió las rutas de datos FP32 (más trabajo por ciclo de reloj) y Ada renovó las cachés para que el rendimiento no escale linealmente con el número de núcleos.
¿Qué es una urdimbre?
Un grupo de 32 subprocesos que se ejecutan en sincronía en el SM. Las aplicaciones lanzan miles de subprocesos; la GPU los programa como warps para mantener el hardware ocupado.
¿Los núcleos CUDA ayudan con la IA?
Sí, pero los grandes aceleradores de la IA moderna son los núcleos Tensor. Los núcleos CUDA siguen gestionando gran parte del trabajo circundante en esas canalizaciones.