BLOG

Gemma 4: Noul model deschis al Google și motivul pentru care funcționează cel mai bine pe computerele personale

Ultima actualizare:

  Această pagină a fost tradusă automat de DeepL. Switch to English

Google tocmai a lansat Gemma 4, cea mai performantă familie de modele cu parametri deschisi de până acum, iar acest lucru reprezintă o noutate importantă pentru oricine utilizează IA la nivel local pe echipamente obișnuite. Lansat pe 31 martie 2026 sub o licență Apache 2.0 complet permisivă, Gemma 4 este conceput pentru a oferi capacități de inteligență artificială de ultimă generație pe plăcile grafice destinate consumatorilor și chiar pe laptopuri, fără a fi necesar un abonament.

Gama cuprinde patru variante: E2B (2,3 miliarde de parametri efectivi), E4B (4,5 miliarde de parametri efectivi), o variantă Mixture-of-Experts de 26 miliarde de parametri cu doar 4 miliarde de parametri activi și un model dens de 31 miliarde de parametri. Astfel, într-o singură familie aveți la dispoziție totul, de la modele potrivite pentru dispozitive edge până la cele de ultimă generație, iar toate acestea rulează pe genul de PC-uri pe care pasionații de asamblare le construiesc deja.

Google Gemma logo

Ce face ca Gemma 4 să se distingă

Gemma 4 nu este doar mai mare, ci și mai performantă din punct de vedere al parametrilor. Iată câteva dintre caracteristicile sale principale:

  • Raționament avansat și agenți: planificare în mai multe etape, matematică, programare și fluxuri de lucru autonome gata de utilizare.
  • Multimodal: gestionează textul și imaginile în mod nativ, cu suport audio pe variantele mai mici E2B și E4B. Analiza documentelor, recunoașterea graficelor și OCR-ul pentru scrierea de mână funcționează toate într-o singură comandă.
  • Context extins: 128.000 de tokenuri pentru E2B/E4B și 256.000 de tokenuri pentru modelele dense de 26B MoE și 31B, suficient de mult pentru a încărca o întreagă bază de cod sau o serie de documente.
  • Multilingv: antrenat pe peste 140 de limbi, cu suport integrat pentru zeci dintre acestea.

Este disponibil pe Hugging Face în variante preantrenate și optimizate pentru instrucțiuni și funcționează imediat cu instrumentele pe care le folosiți deja: Ollama, LM Studio, llama.cpp, vLLM și Transformers.

De ce computerele personale reprezintă segmentul de nișă al Gemma 4

Gemma 4 a fost concepută având ca obiectiv principal inferența locală, iar cifrele confirmă acest lucru. NVIDIA și Google au colaborat la optimizări de la lansare pentru plăcile RTX, iar lucrările recente la llama.cpp au redus consumul de memorie al cache-ului KV cu aproape 40% în scenarii cu context extins.

Cu cuantificarea Q4_K_M, care reprezintă soluția optimă pentru majoritatea configurațiilor, poți rula modelul MoE de 26 miliarde de parametri pe o placă de 24 GB, precum RTX 4090 sau 3090, păstrând spațiu suficient pentru un context de 8.000 de tokeni și atingând totuși o viteză de peste 20 de tokeni pe secundă. Cu cuantificarea NVFP4 de la NVIDIA, chiar și modelul dens de 31B se potrivește pe un singur RTX 4090 cu o pierdere de precizie de doar ~0,25%, păstrând în același timp contextul complet de 256K.

Gemma 4 31B NVFP4 benchmarks

Ghid rapid de asamblare

E2B / E4B (edge și latență redusă): O placă RTX 3060 sau 4060 cu 8 sau 12 GB de memorie video și un procesor modern Ryzen 5 sau Core i5 sunt suficiente. Asociați-le cu 32 GB de memorie DDR5 și un sistem de răcire AIO silențios dacă intenționați să rulați sesiuni îndelungate.

26B MoE / 31B dens (pentru raționament și procesare multimodală): Optează pentru o placă video RTX 4090 (sau 3090, dacă deja deții una), un procesor Ryzen 7 / Core i7 sau superior, 64 GB de memorie DDR5, un SSD NVMe Gen4 rapid pentru încărcarea modelelor și o sursă de alimentare de 850 W+ într-o carcasă cu flux de aer ridicat. Un sistem precum CORSAIR iCUE LINK TITAN RX RGB 360mm AIO menține GPU-ul și CPU-ul în stare optimă sub sarcini de inferență susținute.

RTX 50 Series Exploded view

Seria RTX 50 oferă modelului Gemma 4 o capacitate de procesare și mai mare pentru contexte mai ample și o inferență mai rapidă.

Ghid de pornire rapidă pe computerul tău

1. Instalați Ollama sau LM Studio.

2. Descărcați un model Gemma 4 de pe Hugging Face (începeți cu gemma4:e4b dacă sunteți începător sau cu gemma4:31b dacă dispuneți de suficientă memorie video).

3. Executați procesul de inferență și așteptați-vă la 50, 100+ tokenuri pe secundă pe plăcile din seria RTX 40 pentru variantele mai mici.

4. Încearcă funcția multimodală: încarcă o imagine împreună cu o solicitare și lasă aplicația să analizeze o captură de ecran, un grafic sau o fotografie.

Gemma 4 On-Device: Acum este disponibil și în versiune mobilă

Funcționalitatea de procesare la margine a Gemma 4 se extinde și la telefoane. Variantele mai mici, E2B și E4B, funcționează cu procesoare Arm și procesoare grafice mobile, oferind o latență aproape de zero pentru recunoașterea vocală, analiza imaginilor și asistenții integrați în dispozitiv, fără a fi necesară utilizarea cloud-ului. Suita AI Edge de la Google și Android AICore o fac accesibilă la nivel de sistem pe Android, iar dezvoltatorii iOS pot accesa procesorul și procesorul grafic prin intermediul Metal.

Gemma 4 este cel mai clar semn de până acum că PC-urile de consum din gama superioară nu sunt doar sisteme de jocuri, ci adevărate stații de lucru pentru IA. Greutăți deschise, o licență permisivă, raționament de ultimă generație și o fereastră de context de 256K care încape efectiv pe un singur GPU. Dacă ai deja o configurație modernă CORSAIR, ești aproape de a avea o stație de lucru locală dedicată IA. Dacă îți configurezi una, optează pentru o placă de 24 GB, 64 GB de DDR5 și un sistem de răcire care să nu cedeze sub o sarcină susținută.

corsair-ai-workstation-300

Vrei să rulezi Gemma pe computerul tău? Iată stația de lucru CORSAIR AI Workstation 300

Dacă doriți o soluție fără compromisuri pentru a rula Gemma 4 (și alte modele deschise) exclusiv pe propriul hardware, CORSAIR AI Workstation 300 este conceput special în acest scop. Acesta combină un procesor AMD Ryzen AI Max+ 395 cu iGPU-ul Radeon 8060S și până la 96 GB de VRAM unificată din cei 128 GB de memorie LPDDR5X-8000, oferindu-vă suficient spațiu pentru a încărca și a regla local variante mari ale modelului Gemma fără a fi nevoie de paginare pe disc. Un NPU dedicat de 50 TOPS accelerează inferența, iar întregul sistem se încadrează într-un șasiu de 4,4 L pe care îl puteți așeza pe birou. Pentru dezvoltatorii și cercetătorii care doresc confidențialitate, latență redusă și costuri zero pe token, aceasta este una dintre cele mai bune modalități de a pune Gemma la treabă.

PRODUSE ÎN ARTICOL

JOIN OUR OFFICIAL CORSAIR COMMUNITIES

Join our official CORSAIR Communities! Whether you're new or old to PC Building, have questions about our products, or want to chat about the latest PC, tech, and gaming trends, our community is the place for you.