Un core CUDA è una delle minuscole unità matematiche all'interno di una GPU NVIDIA che svolge il lavoro pesante per la grafica e il calcolo parallelo. Ogni core risiede all'interno di un blocco più grande chiamato Streaming Multiprocessor (SM) e, sulle moderne GPU GeForce "Blackwell", ogni SM contiene 128 core CUDA. Ecco perché su una RTX 5090 si vedono conteggi totali come 21.760 core CUDA. Il chip ha semplicemente molti SM, ciascuno dei quali contiene questi core.
CUDA (la piattaforma di calcolo parallelo di NVIDIA) è il lato software della storia: consente alle app e ai framework di inviare in modo efficiente a quei core rendering, IA e simulazioni massicciamente paralleli.
Pensate a una GPU come a una fabbrica progettata per lavori di massa. I core CUDA gestiscono il lavoro in gruppi di warp di 32 thread che eseguono la stessa istruzione su dati diversi (un modello che NVIDIA chiama SIMT). È così che le GPU elaborano migliaia di operazioni contemporaneamente. Ogni SM dispone di scheduler che mantengono molti warp in volo per nascondere la latenza della memoria e mantenere occupati quei core.
Un'immagine mentale utile:
Questi scaricano compiti specifici in modo che i core CUDA possano concentrarsi sull'ombreggiatura/calcolo.
Crediti immagine: NVIDIA
Di solito sì, ma non da sole. L'architettura è molto importante. Ad esempio, la generazione Ampere di NVIDIA ha raddoppiato il throughput FP32 per SM rispetto a Turing, quindi la potenza "per core" è cambiata tra le generazioni. Ada ha anche ampliato notevolmente le cache (in particolare L2), il che aumenta molti carichi di lavoro senza modificare il numero di core. In breve: confrontare il numero di core CUDA tra generazioni diverse non è come confrontare mele con mele.
Altri fattori determinanti:
Una regola empirica amichevole:
Se volete verificare rapidamente la validità della scala, RTX 5090 elenca 21.760 core CUDA, mostrando come NVIDIA calcoli i core per SM su molti SM. Ma, ancora una volta, i guadagni in termini di prestazioni derivano dal design complessivo, non solo dal conteggio.
Crediti immagine: NVIDIA
Non è necessario un cavo speciale, ma occorre il giusto stack software. CUDA è la piattaforma di NVIDIA; le app la utilizzano tramite driver, toolkit e librerie. Molte applicazioni e framework popolari sono già predisposti per sfruttare l'accelerazione CUDA una volta installati i driver NVIDIA e (se necessario) il CUDA Toolkit; le app supportate lo utilizzano semplicemente.
CUDA funziona su GPU NVIDIA abilitate per CUDA in tutte le linee di prodotti (GeForce/RTX per gaming e creazione, RTX professionale e GPU per data center). La guida alla programmazione indica che il modello è scalabile su molte generazioni di GPU e SKU; NVIDIA mantiene un elenco delle GPU abilitate per CUDA e delle loro capacità di calcolo.
Un core CUDA è uguale a uno "shader core"?
Nel linguaggio quotidiano relativo alle GPU, sì, sulle GPU NVIDIA, i "core CUDA" si riferiscono alle ALU FP32/INT32 programmabili utilizzate per l'ombreggiatura e il calcolo generale all'interno di ogni SM.
Perché il numero di core CUDA varia così tanto tra le diverse generazioni?
Perché le architetture evolvono. Ampere ha modificato i percorsi dati FP32 (più lavoro per ciclo di clock) e Ada ha revisionato le cache, quindi le prestazioni non scalano in modo lineare con il numero di core.
Cos'è un warp?
Un gruppo di 32 thread che vengono eseguiti in modo sincronizzato sull'SM. Le app avviano migliaia di thread; la GPU li pianifica come warp per mantenere l'hardware occupato.
I core CUDA aiutano con l'intelligenza artificiale?
Sì, ma i grandi acceleratori dell'IA moderna sono i Tensor Core. I core CUDA continuano a gestire gran parte del lavoro correlato in quelle pipeline.