Um núcleo CUDA é uma das minúsculas unidades matemáticas dentro de uma GPU NVIDIA que realiza o trabalho pesado para gráficos e computação paralela. Cada núcleo reside dentro de um bloco maior chamado Multiprocessador de Streaming (SM) e, nas modernas GPUs GeForce “Blackwell”, cada SM contém 128 núcleos CUDA. É por isso que você verá contagens totais como 21.760 núcleos CUDA em uma RTX 5090. O chip simplesmente tem muitos SMs, cada um repleto desses núcleos.
CUDA (a plataforma de computação paralela da NVIDIA) é o lado do software da história: permite que aplicativos e estruturas enviem renderização de trabalho massivamente paralela, IA e simulação para esses núcleos de forma eficiente.
Pense numa GPU como uma fábrica projetada para trabalhos em massa. Os núcleos CUDA processam o trabalho em grupos de warps de 32 threads que executam a mesma instrução em dados diferentes (um modelo que a NVIDIA chama de SIMT). É assim que as GPUs processam milhares de operações ao mesmo tempo. Cada SM possui agendadores que mantêm muitos warps em execução para ocultar a latência da memória e manter esses núcleos ocupados.
Uma imagem mental útil:
Isso descarrega tarefas específicas para que os núcleos CUDA possam se concentrar no sombreamento/cálculo.
Crédito da imagem: NVIDIA
Normalmente, mas não por si só. A arquitetura é muito importante. Por exemplo, a geração Ampere da NVIDIA duplicou a taxa de transferência FP32 por SM em comparação com a Turing, pelo que a potência «por núcleo» mudou entre gerações. A Ada também expandiu significativamente as caches (nomeadamente L2), o que aumenta muitas cargas de trabalho sem alterar o número de núcleos. Em resumo: comparar o número de núcleos CUDA entre diferentes gerações não é comparável.
Outros fatores importantes:
Uma regra prática amigável:
Se quiser fazer uma rápida verificação da escala, a RTX 5090 lista 21.760 núcleos CUDA, mostrando como a NVIDIA contabiliza os núcleos por SM em muitos SMs. Mas, novamente, os ganhos de desempenho vêm do design total, não apenas da contagem.
Crédito da imagem: NVIDIA
Não precisa de um cabo especial, mas precisa da pilha de software certa. CUDA é a plataforma da NVIDIA; as aplicações utilizam-na através de controladores, kits de ferramentas e bibliotecas. Muitas aplicações e estruturas populares já estão preparadas para aproveitar a aceleração CUDA assim que os controladores NVIDIA e (quando necessário) o Kit de Ferramentas CUDA estiverem instalados, as aplicações compatíveis simplesmente... utilizam-na.
O CUDA funciona em GPUs NVIDIA compatíveis com CUDA em todas as linhas de produtos (GeForce/RTX para jogos e criação, RTX profissional e GPUs para centros de dados). O guia de programação indica que o modelo é compatível com várias gerações de GPUs e SKUs; a NVIDIA mantém uma lista de GPUs compatíveis com CUDA e suas capacidades de computação.
Um núcleo CUDA é o mesmo que um «núcleo de sombreamento»?
No jargão cotidiano das GPUs, sim, nas GPUs NVIDIA, «núcleos CUDA» referem-se às ALUs FP32/INT32 programáveis usadas para sombreamento e computação geral dentro de cada SM.
Por que os números do núcleo CUDA são tão diferentes entre as gerações?
Porque as arquiteturas evoluem. A Ampere alterou os caminhos de dados FP32 (mais trabalho por clock) e a Ada reformulou os caches para que o desempenho não fosse proporcional ao número de núcleos.
O que é uma deformação, mesmo?
Um grupo de 32 threads que são executados em sincronia no SM. As aplicações lançam milhares de threads; a GPU programa-as como warps para manter o hardware ocupado.
Os núcleos CUDA ajudam na IA?
Sim, mas os grandes aceleradores da IA moderna são os Tensor Cores. Os núcleos CUDA ainda lidam com grande parte do trabalho envolvido nessas pipelines.