HOW TO

As melhores configurações de PC para IA local (níveis Básico / Intermédio / Entusiasta)

Última atualização:

  Esta página foi traduzida automaticamente por DeepL. Switch to English

Montar um PC para IA local não é o mesmo que montar um para jogos. A memória de vídeo (VRAM) e a largura de banda da memória são mais importantes do que as velocidades de clock. A capacidade da RAM é mais importante do que o RGB. E o armazenamento precisa de suportar modelos que podem ter dezenas de gigabytes cada. Eis o que realmente faz a diferença em três faixas de orçamento e o que é possível executar de forma realista em cada uma delas.

O que torna um PC adequado para IA local?

Antes de escolher os componentes, é útil saber quais são os requisitos reais da inferência de IA local para o seu hardware:

  • VRAM da GPU: Este é o fator mais importante. Quanto mais VRAM tiver, maiores serão os modelos que poderá executar inteiramente na GPU, que é onde se obtém a melhor velocidade.
  • Memória RAM do sistema: Se um modelo não couber na VRAM, ele ocupa a memória RAM do sistema. Mais memória RAM significa que ainda é possível executar modelos maiores, mas de forma mais lenta.
  • Largura de banda da memória: a velocidade com que os dados circulam entre a memória e o processador afeta diretamente a velocidade de geração de tokens. A largura de banda da memória da GPU é normalmente 10 a 20 vezes mais rápida do que a RAM do sistema.
  • Armazenamento: Os modelos podem ter entre 4 e mais de 50 GB cada. É aconselhável utilizar um armazenamento rápido (SSD NVMe) para que o carregamento dos modelos não demore uma eternidade.
  • CPU: É menos importante do que se poderia pensar para a inferência, mas uma CPU moderna e robusta garante que tudo funcione sem problemas e lida bem com o recurso de fallback exclusivo da CPU.

Nível Inicial: Dá os primeiros passos

Isto destina-se a quem deseja experimentar IA local sem ter de reconfigurar todo o sistema. Está a executar modelos pequenos, com 3 a 7 mil milhões de parâmetros, e pretende que funcionem sem falhas constantes ou trocas de memória.

O que se deve procurar

  • GPU: 8 GB de VRAM (por exemplo, RTX 5060 ou equivalente)
  • RAM: 16–32 GB DDR4/DDR5
  • Armazenamento: SSD NVMe de 500 GB a 1 TB
  • CPU: Processador moderno de 6 núcleos ou superior (por exemplo, Intel Core Ultra 5 235, AMD Ryzen 5 9600X)
  • Fonte de alimentação: 550–650 W, 80+ Bronze ou superior

O que pode executar

Os modelos Quantized 7B (como o Llama 3 8B Q4) cabem facilmente em 8 GB de VRAM e geram tokens a uma velocidade aceitável. É possível conversar, resumir documentos e obter assistência básica na programação. Os modelos mais pequenos, de 3B, terão um desempenho ágil.

Se ultrapassar os 7 mil milhões, o modelo irá transferir parcialmente a carga para a CPU/RAM e ficará visivelmente mais lento. Mas, para começar e aprender a usar as ferramentas (LM Studio, Ollama), este nível é bastante adequado.

corsair vengeance a7400 pre built gaming PC

Nível intermédio: IA local avançada

É aqui que a IA local começa a revelar-se verdadeiramente útil para o trabalho prático. É possível executar modelos de 13 mil milhões de parâmetros inteiramente na GPU, lidar com janelas de contexto mais longas e realizar várias tarefas em simultâneo sem que tudo fique paralisado.

O que se deve procurar

  • GPU: 12–16 GB de VRAM (por exemplo, RTX 5070 Ti ou equivalente)
  • RAM: 32–64 GB DDR5
  • Armazenamento: SSD NVMe de 1–2 TB
  • CPU: Processador moderno de 8 núcleos ou superior (por exemplo, Intel Core Ultra 7 265K, AMD Ryzen 7 9700X)
  • Fonte de alimentação: 750 W 80+ Gold
Vengeance_a7300_11_import

O que pode executar

Os modelos Quantized de 13 mil milhões de parâmetros funcionam inteiramente na VRAM, com capacidade de sobra. Obtém-se uma qualidade de resultados visivelmente superior à dos modelos de 7 mil milhões de parâmetros, respostas mais coerentes, melhor raciocínio e um cumprimento mais fiável das instruções.

Os modelos de 70B tornam-se viáveis com o descarregamento parcial (algumas camadas na GPU, o resto na RAM), embora sejam mais lentos. A opção de 64 GB de RAM vale a pena neste caso, se pretender experimentar modelos de maior dimensão.

Esta camada lida com a maioria das tarefas práticas de IA local: assistência na redação, programação, análise de documentos e execução simultânea de vários modelos de menor dimensão.

Nível Entusiasta: Sem concessões

Isto destina-se a quem pretende executar rapidamente os maiores modelos abertos disponíveis, com capacidade para janelas de contexto amplas e fluxos de trabalho complexos. Imagine modelos com mais de 70 mil milhões de parâmetros a funcionar sem problemas, ou vários modelos carregados em simultâneo.

O que se deve procurar

  • GPU: 24 GB ou mais de VRAM (por exemplo, RTX 3090, RTX 4090, RTX 5090) ou duas GPUs, caso as suas ferramentas suportem essa configuração
  • RAM: 64–128 GB DDR5
  • Armazenamento: SSD NVMe de 2–4 TB (considere uma unidade dedicada exclusivamente para modelos)
  • CPU: Processador moderno de 16 a 24 núcleos (por exemplo, Intel Core Ultra 9 285K, AMD Ryzen 9 9950X3D)
  • Fonte de alimentação: 1000 W+ 80+ Gold ou Platinum

O que pode executar

Os modelos quantizados de 70 mil milhões de parâmetros podem caber na totalidade (ou quase na totalidade) em 24 GB de VRAM, dependendo do nível de quantização. É aqui que se obtém uma qualidade de saída que rivaliza com as APIs na nuvem; a diferença entre um modelo de 13 mil milhões e um de 70 mil milhões de parâmetros é substancial.

Com 128 GB de memória RAM do sistema como recurso de reserva, até os modelos abertos de maior dimensão ficam acessíveis através do descarregamento parcial. E o rápido armazenamento NVMe significa que o carregamento e a alternância entre modelos demoram segundos, e não minutos.

Nesta fase, não se limita a executar IA localmente; está a fazê-lo de forma tão eficaz que poderá deixar completamente de recorrer às APIs na nuvem.

geforce-rtx-5090

Não se esqueça destes

Algumas coisas que são mais importantes do que as pessoas imaginam:

Arrefecimento:

  • As GPUs aquecem bastante quando submetidas a cargas prolongadas de inferência de IA. Uma caixa com um bom fluxo de ar faz toda a diferença; mais informações sobre isso abaixo
  • No que diz respeito às CPUs, um dissipador de qualidade mantém tudo estável; um modelo como o CORSAIR iCUE LINK TITAN RX RGB 360 mm será capaz de suportar cargas prolongadas.

Fonte de alimentação:

  • Uma fonte de alimentação fiável com margem de potência suficiente evita falhas durante cargas pesadas de inferência. Não economize neste aspeto. A CORSAIR RMx RM1000x é uma excelente opção versátil para a maioria das montagens, e a HX1500i é a escolha certa se tiver um equipamento de entusiasta que consome muita energia.

Fluxo de ar da caixa:

  • O seu sistema irá funcionar sob carga elevada durante períodos mais longos, pelo que uma boa ventilação é importante para garantir a durabilidade. O CORSAIR FRAME 4000D oferece-lhe uma ventilação eficaz numa caixa de formato mid-tower; caso necessite de espaço para radiadores maiores e mais capacidade de armazenamento, opte pelo FRAME 5000D.

Velocidade de armazenamento:

  • Carregar um modelo de 30 GB a partir de um disco rígido (HDD) em comparação com um SSD NVMe representa a diferença entre um minuto e alguns segundos. Se costuma experimentar modelos diferentes com regularidade, um armazenamento rápido poupa-lhe muito tempo. O CORSAIR MP700 PRO oferece velocidades Gen5 para um carregamento de modelos mais rápido, ou então o MP600 ELITE é uma excelente opção Gen4 que não vai custar uma fortuna.
RMx_SERIES_2021_RM1000x_Artboard01_AA
MP700 PRO
corsair frame 5000d (1)

Sistemas pré-montados CORSAIR VENGEANCE

Se preferir saltar a lista de componentes e passar diretamente para os modelos prontos a usar, os PCs para jogos CORSAIR VENGEANCE vêm com o hardware de que necessita já montado, testado e com uma garantia de dois anos. Embora tenham sido concebidos para jogos, as especificações também se adequam bem à IA local, especialmente as configurações de gama superior, com bastante VRAM e memória DDR5.

Eis como alguns dos membros da atual formação dos VENGEANCE se enquadram nos níveis deste guia:

Equivalente a um motor de arranque:

Equivalente médio:

Equivalente para entusiastas:

Todos os sistemas VENGEANCE incluem armazenamento NVMe, refrigeração líquida CORSAIR e são montados nos EUA. Recebe um computador totalmente montado e com garantia, sem ter de se preocupar com a compatibilidade: basta instalar a sua aplicação de corrida, descarregar um modelo e começar.

CORSAIR_VENGEANCE_a7500_AIR_RENDER_01

CORSAIR AI300

Se pretende uma estação de trabalho dedicada à IA, a CORSAIR AI Workstation 300 (AI300) é uma estação de trabalho compacta e especificamente concebida para a IA local desde o início.

corsair-ai-workstation-300

Vem equipado com uma configuração de alta capacidade de memória otimizada para inferência de IA, memória gráfica escalável para modelos de grande dimensão e o conjunto de software CORSAIR AI, para que possa começar a executar modelos logo após a instalação, em vez de passar um fim de semana a configurá-lo.

PRODUTOS NO ARTIGO

JOIN OUR OFFICIAL CORSAIR COMMUNITIES

Join our official CORSAIR Communities! Whether you're new or old to PC Building, have questions about our products, or want to chat about the latest PC, tech, and gaming trends, our community is the place for you.