Última atualização:
Executar um LLM localmente significa que o modelo fica no seu computador e que as suas instruções (e quaisquer ficheiros que lhe forneça) não precisam de sair do seu computador. Sem conta na nuvem. Sem chaves API. Sem «vamos treinar com os seus dados… provavelmente não… talvez». Apenas você, o seu computador e um modelo a realizar qualquer tarefa que lhe atribuir.
Um LLM local é um modelo de linguagem de grande dimensão que funciona no seu computador, em vez de num servidor remoto. Na prática, isso significa normalmente que descarrega os ficheiros do modelo, os carrega numa aplicação local e conversa com eles da mesma forma que conversaria com um assistente na nuvem, só que o «servidor» é o seu PC.
«Executar» um LLM localmente significa quase sempre fazer inferências (gerar respostas), e não treinar um modelo totalmente novo a partir do zero.
Existem algumas razões pelas quais as pessoas mudam dos LLMs na nuvem para os locais:
É claro que está a trocar a conveniência pelo controlo. Um modelo na nuvem pode parecer mágico; um modelo local pode parecer mágico, dependendo do seu hardware.
Resumindo: a CPU funciona, a GPU ajuda e a memória é importante.
Eis o que realmente influencia se vais divertir-te:
Um computador moderno com Windows 10/11 e 32 GB ou mais de RAM constitui uma base sólida para modelos locais de menor dimensão, e uma maior quantidade de memória permite executar modelos de maior dimensão com maior facilidade.
O LM Studio é uma aplicação para computador que permite descarregar modelos e conversar com elas localmente. Também inclui uma API local programável para programadores.
O Ollama funciona como uma aplicação nativa do Windows e oferece um fluxo de trabalho de linha de comandos, além de um ponto de extremidade de API HTTP local. É compatível com GPUs NVIDIA e AMD Radeon no Windows.
Se pretende o máximo controlo, o llama.cpp é um motor de inferência de código aberto muito utilizado, que inclui instruções de compilação e vários backends.
Os modelos maiores requerem mais RAM e/ou VRAM. Se não tiver memória suficiente, irá enfrentar um desempenho lento, falhas ou uma troca constante de dados para o disco (o que dá a sensação de que o seu PC está a funcionar a passo de caracol).
Uma regra prática segura para modelos quantizados em int4:
E se estiver a recorrer à aceleração por GPU:
Ou, se não quiser adivinhar, pode usar o LLMfit para ajustar os modelos ao seu hardware específico.
O LLMfit é uma ferramenta de terminal que identifica a sua CPU, RAM e GPU/VRAM e, em seguida, classifica os modelos com base na compatibilidade, velocidade prevista, contexto e qualidade, para quepossa ver o que funcionará bem antes de fazer qualquer download.
Para que serve:
Como utilizá-lo neste fluxo de trabalho:
É isso mesmo. Escolha um executável, descarregue um modelo compatível com o seu hardware e comece a dar instruções! Tudo fica no seu computador. Não precisa de uma licenciatura em informática, de uma assinatura de serviços na nuvem nem de passar o fim de semana a resolver problemas. Todo o processo demora mais ou menos o mesmo tempo que instalar um jogo. E assim que estiver a funcionar, terá um assistente de IA privado e offline que funciona ao seu ritmo.
Se pretende realmente executar LLMs locais no Windows, especialmente se deseja modelos maiores, janelas de contexto mais amplas ou um desempenho mais fluido, é aqui que entra CORSAIR AI Workstation 300 (AI300) e o Pacote de Software CORSAIR AI o ajudam a atingir o próximo nível.
A inferência local costuma ser limitada pela memória e pela largura de banda. O AI300 foi concebido tendo em conta essa realidade:
Preciso de uma GPU NVIDIA para executar um LLM local no Windows?
Não. Algumas ferramentas suportam explicitamente a AMD no Windows; por exemplo, a documentação do Ollama para Windows menciona o suporte tanto para GPUs NVIDIA como para GPUs AMD Radeon.
É possível executar um LLM local totalmente offline?
Sim, depois de ter descarregado a aplicação e os ficheiros do modelo. A instalação inicial e o download dos modelos requerem normalmente ligação à Internet, mas a inferência pode ser executada offline assim que tudo estiver armazenado localmente.
A IA local é automaticamente privada?
Pode ser, mas depende da sua configuração. A inferência local significa que o modelo é executado no seu dispositivo, mas algumas aplicações oferecem ligações opcionais à nuvem. Se o seu objetivo for «não necessitar da nuvem», mantenha as integrações com a nuvem desativadas e utilize modelos exclusivamente locais.
Por que é que o meu modelo local é lento?
Normalmente, uma destas opções:
PRODUTOS NO ARTIGO
JOIN OUR OFFICIAL CORSAIR COMMUNITIES
Join our official CORSAIR Communities! Whether you're new or old to PC Building, have questions about our products, or want to chat about the latest PC, tech, and gaming trends, our community is the place for you.