Ostatnia aktualizacja:
Lokalne uruchamianie modelu LLM oznacza, że model znajduje się na Twoim komputerze, a Twoje polecenia (oraz wszelkie pliki, które mu przekazujesz) nie muszą opuszczać Twojego urządzenia. Żadnego konta w chmurze. Żadnych kluczy API. Żadnego „wyszkolimy model na Twoich danych… prawdopodobnie nie… może”. Tylko Ty, Twój komputer i model wykonujący każde zadanie, które mu zlecisz.
Lokalny model LLM to duży model językowy, który działa na Twoim komputerze, a nie na zdalnym serwerze. W praktyce oznacza to zazwyczaj, że pobierasz pliki modelu, wczytujesz je do lokalnej aplikacji i rozmawiasz z nimi tak samo, jak z asystentem w chmurze, z tą różnicą, że „serwerem” jest Twój komputer.
„Uruchamianie” modelu LLM lokalnie prawie zawsze oznacza generowanie odpowiedzi, a nie uczenie zupełnie nowego modelu od podstaw.
Istnieje kilka powodów, dla których ludzie przechodzą z modeli LLM w chmurze na modele lokalne:
Oczywiście zamieniasz wygodę na kontrolę. Model chmurowy może wydawać się czymś w rodzaju magii; model lokalny może sprawiać wrażenie magii w zależności od posiadanego sprzętu.
W skrócie: procesor działa, karta graficzna pomaga, a pamięć ma znaczenie.
Oto, co faktycznie decyduje o tym, czy dobrze się bawisz:
Nowoczesny komputer z systemem Windows 10/11 i co najmniej 32 GB pamięci RAM stanowi solidną podstawę do pracy z mniejszymi modelami lokalnymi, a większa ilość pamięci pozwala na wygodniejsze korzystanie z większych modeli.
LM Studio to aplikacja komputerowa, która umożliwia pobieranie modeli i prowadzenie z nimi rozmów w trybie lokalnym. Zawiera również programowalny lokalny interfejs API przeznaczony dla programistów.
Ollama działa jako natywna aplikacja dla systemu Windows i oferuje obsługę wiersza poleceń oraz lokalny punkt końcowy API HTTP. Obsługuje ona bezpośrednio procesory graficzne NVIDIA i AMD Radeon w systemie Windows.
Jeśli zależy Ci na maksymalnej kontroli, warto wypróbować llama.cpp – popularny silnik wnioskowania typu open source, który zawiera instrukcje kompilacji i obsługuje wiele backendów.
Większe modele wymagają większej ilości pamięci RAM i/lub VRAM. Jeśli nie masz ich wystarczająco dużo, możesz spodziewać się spowolnienia działania, awarii lub ciągłego przenoszenia danych na dysk (co sprawia wrażenie, jakby komputer pracował w ślimaczym tempie).
Ogólna zasada dotycząca modeli z kwantyzacją typu int4:
A jeśli korzystasz z przyspieszenia graficznego:
A jeśli nie chcesz zgadywać, możesz skorzystać z LLMfit, aby dopasować modele dokładnie do posiadanego sprzętu.
LLMfit to narzędzie uruchamiane w terminalu, które rozpoznaje procesor, pamięć RAM oraz kartę graficzną i pamięć VRAM, a następnie klasyfikuje modele pod względem dopasowania, przewidywanej szybkości działania, kontekstu i jakości, dzięki czemu jeszcze przed pobraniem pliku można sprawdzić, które z nich będą działać poprawnie.
Do czego się nadaje:
Jak z tego korzystać w tym procesie:
To wszystko. Wybierz środowisko uruchomieniowe, pobierz model dostosowany do Twojego sprzętu i zacznij wydawać polecenia! Wszystko pozostaje na Twoim komputerze. Nie potrzebujesz dyplomu z informatyki, abonamentu na usługi w chmurze ani weekendu spędzonego na rozwiązywaniu problemów. Cały proces trwa mniej więcej tyle samo, co instalacja gry. A gdy już wszystko zacznie działać, zyskasz prywatnego, działającego w trybie offline asystenta AI, który pracuje zgodnie z Twoimi wytycznymi.
Jeśli poważnie myślisz o uruchamianiu lokalnych modeli LLM w systemie Windows, zwłaszcza jeśli zależy Ci na większych modelach, szerszym oknie kontekstowym lub płynniejszym działaniu, to właśnie tutaj CORSAIR AI Workstation 300 (AI300) oraz pakiet oprogramowania CORSAIR AI pomogą Ci przejść na wyższy poziom.
W przypadku wnioskowania lokalnego najczęstszym wąskim gardłem są pamięć i przepustowość. Model AI300 został zaprojektowany z uwzględnieniem tej sytuacji:
Czy do uruchomienia lokalnego modelu LLM w systemie Windows potrzebny jest procesor graficzny NVIDIA?
Nie. Niektóre narzędzia wyraźnie obsługują procesory graficzne AMD w systemie Windows; na przykład w dokumentacji Ollamy dla systemu Windows wspomniano o obsłudze zarówno procesorów graficznych NVIDIA, jak i AMD Radeon.
Czy mogę uruchomić lokalny model LLM całkowicie w trybie offline?
Tak, po pobraniu aplikacji i plików modeli. Pierwsza instalacja i pobieranie modeli zazwyczaj wymagają połączenia z internetem, ale po zainstalowaniu wszystkiego lokalnie procesy wnioskowania mogą przebiegać w trybie offline.
Czy lokalna sztuczna inteligencja jest z natury prywatna?
Może tak być, ale zależy to od Twojej konfiguracji. Wnioskowanie lokalne oznacza, że model działa na Twoim urządzeniu, ale niektóre aplikacje oferują opcjonalne połączenia z chmurą. Jeśli zależy Ci na tym, by „nie korzystać z chmury”, wyłącz integrację z chmurą i korzystaj wyłącznie z modeli lokalnych.
Dlaczego mój lokalny model działa tak wolno?
Zazwyczaj jedno z poniższych:
PRODUKTY W ARTYKULE
JOIN OUR OFFICIAL CORSAIR COMMUNITIES
Join our official CORSAIR Communities! Whether you're new or old to PC Building, have questions about our products, or want to chat about the latest PC, tech, and gaming trends, our community is the place for you.