Última atualização:
Montar um PC para IA local não é o mesmo que montar um para jogos. A memória de vídeo (VRAM) e a largura de banda da memória são mais importantes do que as velocidades de clock. A capacidade da RAM é mais importante do que o RGB. E o armazenamento precisa de suportar modelos que podem ter dezenas de gigabytes cada. Eis o que realmente faz a diferença em três faixas de orçamento e o que é possível executar de forma realista em cada uma delas.
Antes de escolher os componentes, é útil saber quais são os requisitos reais da inferência de IA local para o seu hardware:
Isto destina-se a quem deseja experimentar IA local sem ter de reconfigurar todo o sistema. Está a executar modelos pequenos, com 3 a 7 mil milhões de parâmetros, e pretende que funcionem sem falhas constantes ou trocas de memória.
Os modelos Quantized 7B (como o Llama 3 8B Q4) cabem facilmente em 8 GB de VRAM e geram tokens a uma velocidade aceitável. É possível conversar, resumir documentos e obter assistência básica na programação. Os modelos mais pequenos, de 3B, terão um desempenho ágil.
Se ultrapassar os 7 mil milhões, o modelo irá transferir parcialmente a carga para a CPU/RAM e ficará visivelmente mais lento. Mas, para começar e aprender a usar as ferramentas (LM Studio, Ollama), este nível é bastante adequado.
É aqui que a IA local começa a revelar-se verdadeiramente útil para o trabalho prático. É possível executar modelos de 13 mil milhões de parâmetros inteiramente na GPU, lidar com janelas de contexto mais longas e realizar várias tarefas em simultâneo sem que tudo fique paralisado.
Os modelos Quantized de 13 mil milhões de parâmetros funcionam inteiramente na VRAM, com capacidade de sobra. Obtém-se uma qualidade de resultados visivelmente superior à dos modelos de 7 mil milhões de parâmetros, respostas mais coerentes, melhor raciocínio e um cumprimento mais fiável das instruções.
Os modelos de 70B tornam-se viáveis com o descarregamento parcial (algumas camadas na GPU, o resto na RAM), embora sejam mais lentos. A opção de 64 GB de RAM vale a pena neste caso, se pretender experimentar modelos de maior dimensão.
Esta camada lida com a maioria das tarefas práticas de IA local: assistência na redação, programação, análise de documentos e execução simultânea de vários modelos de menor dimensão.
Isto destina-se a quem pretende executar rapidamente os maiores modelos abertos disponíveis, com capacidade para janelas de contexto amplas e fluxos de trabalho complexos. Imagine modelos com mais de 70 mil milhões de parâmetros a funcionar sem problemas, ou vários modelos carregados em simultâneo.
Os modelos quantizados de 70 mil milhões de parâmetros podem caber na totalidade (ou quase na totalidade) em 24 GB de VRAM, dependendo do nível de quantização. É aqui que se obtém uma qualidade de saída que rivaliza com as APIs na nuvem; a diferença entre um modelo de 13 mil milhões e um de 70 mil milhões de parâmetros é substancial.
Com 128 GB de memória RAM do sistema como recurso de reserva, até os modelos abertos de maior dimensão ficam acessíveis através do descarregamento parcial. E o rápido armazenamento NVMe significa que o carregamento e a alternância entre modelos demoram segundos, e não minutos.
Nesta fase, não se limita a executar IA localmente; está a fazê-lo de forma tão eficaz que poderá deixar completamente de recorrer às APIs na nuvem.
Algumas coisas que são mais importantes do que as pessoas imaginam:
Arrefecimento:
Fonte de alimentação:
Fluxo de ar da caixa:
Velocidade de armazenamento:
Se preferir saltar a lista de componentes e passar diretamente para os modelos prontos a usar, os PCs para jogos CORSAIR VENGEANCE vêm com o hardware de que necessita já montado, testado e com uma garantia de dois anos. Embora tenham sido concebidos para jogos, as especificações também se adequam bem à IA local, especialmente as configurações de gama superior, com bastante VRAM e memória DDR5.
Eis como alguns dos membros da atual formação dos VENGEANCE se enquadram nos níveis deste guia:
Equivalente a um motor de arranque:
Equivalente médio:
Equivalente para entusiastas:
Todos os sistemas VENGEANCE incluem armazenamento NVMe, refrigeração líquida CORSAIR e são montados nos EUA. Recebe um computador totalmente montado e com garantia, sem ter de se preocupar com a compatibilidade: basta instalar a sua aplicação de corrida, descarregar um modelo e começar.
Se pretende uma estação de trabalho dedicada à IA, a CORSAIR AI Workstation 300 (AI300) é uma estação de trabalho compacta e especificamente concebida para a IA local desde o início.
Vem equipado com uma configuração de alta capacidade de memória otimizada para inferência de IA, memória gráfica escalável para modelos de grande dimensão e o conjunto de software CORSAIR AI, para que possa começar a executar modelos logo após a instalação, em vez de passar um fim de semana a configurá-lo.
PRODUTOS NO ARTIGO
JOIN OUR OFFICIAL CORSAIR COMMUNITIES
Join our official CORSAIR Communities! Whether you're new or old to PC Building, have questions about our products, or want to chat about the latest PC, tech, and gaming trends, our community is the place for you.