LLMをローカルで実行するということは、モデルが自分のPC上に存在し、プロンプト(およびモデルに読み込ませるファイル)がPCの外に出る必要がないことを意味します。クラウドアカウントも、APIキーも不要です。「あなたのデータでトレーニングします……たぶん……もしかすると……」といった曖昧な説明もありません。あなたとPC、そして与えられたタスクをこなすモデルだけが存在するのです。
ローカルLLMとは、リモートサーバーではなく、自分のコンピュータ上で動作する大規模言語モデルのことです。実際には、通常、モデルファイルをダウンロードしてローカルアプリに読み込み、クラウドアシスタントと会話するのと同じようにチャットを行うことになります。ただし、「サーバー」の役割を果たすのは自分のPCです。
LLMをローカルで「実行する」とは、ほとんどの場合、推論(応答の生成)を意味し、ゼロから新しいモデルを学習させることではありません。
人々がクラウド型LLMからローカル型LLMに乗り換える理由はいくつかあります:
もちろん、利便性と引き換えに制御性を犠牲にすることになります。クラウドモデルは魔法のように感じられるかもしれませんが、ローカルモデルも、使用するハードウェア次第では魔法のように感じられることがあります。
要約すると:CPUが動作し、GPUが補助し、メモリが重要だ。
実際に楽しい時間を過ごせるかどうかは、以下の要素にかかっています:
RAMが32GB以上の最新のWindows 10/11搭載マシンは、小規模なローカルモデルの実行には十分な基本構成であり、メモリ容量を増やすことで、より大規模なモデルも快適に実行できるようになります。
LM Studioは、モデルをダウンロードしてローカル環境でチャットできるデスクトップアプリです。また、開発者向けにプログラム可能なローカルAPIも備えています。
OllamaはネイティブのWindowsアプリとして動作し、コマンドラインでのワークフローに加え、ローカルのHTTP APIエンドポイントを提供します。Windows上のNVIDIAおよびAMD Radeon製GPUを明示的にサポートしています。
最大限の制御性を求めるなら、lama.cppがおすすめです。これは、ビルド手順や複数のバックエンドを備えた、人気のあるオープンソースの推論エンジンです。
大規模なモデルを扱うには、より多くのRAMやVRAMが必要です。これらが不足していると、動作が遅くなったり、クラッシュしたり、ディスクへのスワップが頻繁に行われたり(まるでPCがメープルシロップの中を這うように遅く感じられる)します。
int4量子化モデルにおける安全な目安:
また、GPUアクセラレーションを利用している場合は:
あるいは、推測したくない場合は、LLMfitを使って、お使いのハードウェアにぴったり合うモデルを選択することもできます。
LLMfitは、CPU、RAM、GPU/VRAMを検出し、適合度、予想される処理速度、コンテキスト、品質に基づいてモデルをランク付けするターミナルツールです。これにより、 ダウンロードする前にどのモデルがスムーズに動作するかを確認できます。
こんな時に役立ちます:
このワークフローでの使用方法:
以上です。ランナを選択し、お使いのハードウェアに適したモデルをダウンロードして、プロンプトを入力し始めましょう!すべてが自分のマシン上で完結します。コンピュータサイエンスの学位も、クラウドサービスの契約も、週末を費やしてトラブルシューティングをする必要もありません。全体のプロセスは、ゲームをインストールするのとほぼ同じくらいの時間しかかかりません。そして、一度動作し始めれば、自分の条件に合わせて動く、プライベートでオフラインのAIアシスタントが手に入るのです。
Windows上でローカルLLMを本格的に運用したい方、特に大規模なモデルやより大きなコンテキストウィンドウ、あるいはよりスムーズなパフォーマンスを求める方には、こちらがおすすめです CORSAIR AI Workstation 300 (AI300) と CORSAIR AI ソフトウェアスタック が、さらなる高みへと導いてくれます。
ローカル推論では、通常、メモリとスループットがボトルネックとなります。AI300はこの現実を踏まえて設計されています:
WindowsでローカルのLLMを実行するには、NVIDIAのGPUが必要ですか?
いいえ。Windows版では、AMDを明示的にサポートしているツールもあります。例えば、OllamaのWindows向けドキュメントには、NVIDIAとAMD Radeonの両方のGPUがサポートされていると記載されています。
ローカルのLLMを完全にオフラインで実行することはできますか?
はい、アプリとモデルファイルをダウンロードした後です。初期インストールやモデルのダウンロードには通常インターネット接続が必要ですが、すべてがローカルに保存されれば、推論処理はオフラインで実行できます。
ローカルAIは自動的にプライバシーが保護されるのでしょうか?
場合によっては可能ですが、設定次第です。「ローカル推論」とは、モデルがデバイス上で実行されることを意味しますが、一部のアプリではオプションとしてクラウド接続が提供されています。「クラウド不要」が目的の場合は、クラウド連携機能を無効にしたまま、ローカルのみで動作するモデルを使用してください。
なぜ私のローカルモデルは動作が遅いのでしょうか?
通常は、以下のいずれかです:
記事内の製品
JOIN OUR OFFICIAL CORSAIR COMMUNITIES
Join our official CORSAIR Communities! Whether you're new or old to PC Building, have questions about our products, or want to chat about the latest PC, tech, and gaming trends, our community is the place for you.