<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>ローカルLLM on KnightLiブログ</title>
        <link>https://knightli.com/ja/tags/%E3%83%AD%E3%83%BC%E3%82%AB%E3%83%ABllm/</link>
        <description>Recent content in ローカルLLM on KnightLiブログ</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>ja</language>
        <lastBuildDate>Mon, 18 May 2026 23:20:00 +0800</lastBuildDate><atom:link href="https://knightli.com/ja/tags/%E3%83%AD%E3%83%BC%E3%82%AB%E3%83%ABllm/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>llama.cpp b9196アップデート：Windowsプリビルド版がCUDA 13.1、Vulkan、HIP、SYCLに対応</title>
        <link>https://knightli.com/ja/2026/05/18/llama-cpp-windows-cuda-vulkan-gguf/</link>
        <pubDate>Mon, 18 May 2026 23:20:00 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/05/18/llama-cpp-windows-cuda-vulkan-gguf/</guid>
        <description>&lt;p&gt;&lt;code&gt;llama.cpp&lt;/code&gt; の最近のWindows版は、ローカルLLMユーザーにとってかなり扱いやすくなりました。以前WindowsでGGUFモデルを動かすとき、多くの人が環境問題でつまずいていました。CUDAバージョンの不一致、DLL不足、ドライバー非互換、CMakeビルド失敗、環境変数の誤り、Vulkan / HIP / SYCL設定の複雑さなどです。&lt;/p&gt;
&lt;p&gt;現在は公式Releaseで複数のWindowsプリビルドパッケージが提供されています。多くの場合、ソースからビルドする必要はありません。対応するバージョンをダウンロードし、展開し、モデルファイルを置けば、そのままローカル推論サービスを起動できます。&lt;/p&gt;
&lt;h2 id=&#34;llamacppは何に向いているか&#34;&gt;llama.cppは何に向いているか
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;llama.cpp&lt;/code&gt; は、現在もっともよく使われているローカルGGUFモデル推論フレームワークのひとつです。軽量でクロスプラットフォーム、CPUでもGPUでも動作し、GGUFエコシステムには多くのモデル資源があります。&lt;/p&gt;
&lt;p&gt;よく使われるモデル系統は次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Qwen&lt;/li&gt;
&lt;li&gt;Llama&lt;/li&gt;
&lt;li&gt;DeepSeek&lt;/li&gt;
&lt;li&gt;Gemma&lt;/li&gt;
&lt;li&gt;Mistral&lt;/li&gt;
&lt;li&gt;Mixtral&lt;/li&gt;
&lt;li&gt;Hermes&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;GGUF量子化モデルが普及するにつれて、多くのオープンソースモデルがローカル展開向けのGGUF版を提供するようになりました。一般ユーザーにとって、&lt;code&gt;llama.cpp&lt;/code&gt; の価値は明確です。複雑な推論フレームワーク一式を構築しなくても、自分のPCで使えるチャットサービスを動かせます。&lt;/p&gt;
&lt;h2 id=&#34;windowsプリビルド版の選び方&#34;&gt;Windowsプリビルド版の選び方
&lt;/h2&gt;&lt;p&gt;Windowsユーザーは、ハードウェアに応じて次のビルドを選べます。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Windows x64 CPU&lt;/li&gt;
&lt;li&gt;Windows x64 CUDA 12.4&lt;/li&gt;
&lt;li&gt;Windows x64 CUDA 13.1&lt;/li&gt;
&lt;li&gt;Windows x64 Vulkan&lt;/li&gt;
&lt;li&gt;Windows x64 HIP Radeon&lt;/li&gt;
&lt;li&gt;Windows x64 SYCL&lt;/li&gt;
&lt;li&gt;Windows ARM64 CPU&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;NVIDIA GPUなら、通常はCUDA版を優先します。RTX 3060、4060、4070、4080、4090のようなカードはCUDAルートに向いています。&lt;/p&gt;
&lt;p&gt;AMD GPUなら、HIPまたはVulkanを試せます。実際には、完全なROCm環境を整えたくない場合、Vulkanのほうが扱いやすいこともあります。&lt;/p&gt;
&lt;p&gt;Intel内蔵GPUやArc GPUなら、SYCLまたはVulkanを試せます。性能はNVIDIA CUDAには及ばないことが多いですが、中小規模のGGUFモデルを試すには十分です。&lt;/p&gt;
&lt;p&gt;CPU版は、単体GPUがないユーザーや、小さなモデルを検証したいユーザーに向いています。速度は速くありませんが、導入はもっとも簡単です。&lt;/p&gt;
&lt;h2 id=&#34;通常のggufモデルを起動する&#34;&gt;通常のGGUFモデルを起動する
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;llama.cpp&lt;/code&gt; のWindowsプリビルドパッケージをダウンロードし、モデルを &lt;code&gt;models&lt;/code&gt; ディレクトリに置いたとします。展開した &lt;code&gt;llama.cpp&lt;/code&gt; ディレクトリに入り、次のように起動できます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-powershell&#34; data-lang=&#34;powershell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;llama-server&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;py&#34;&gt;exe&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-m&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;models&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;\&lt;/span&gt;&lt;span class=&#34;nb&#34;&gt;your-model&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;py&#34;&gt;gguf&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-ngl&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;999&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ここで &lt;code&gt;-m&lt;/code&gt; はGGUFモデルファイルを指し、&lt;code&gt;-ngl 999&lt;/code&gt; は可能な限りモデル層をGPUに載せる指定です。実際にどれだけ載るかは、VRAM容量、モデルサイズ、量子化形式によって変わります。&lt;/p&gt;
&lt;p&gt;起動に成功したら、ブラウザで次を開きます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;http://127.0.0.1:8080
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;これでローカルWebチャット画面に入れます。&lt;/p&gt;
&lt;p&gt;VRAMが足りない場合は、より小さいモデルか、Q4やQ5など低めの量子化GGUFに切り替えます。パラメータ数だけでなく、量子化形式とコンテキスト長設定も確認してください。&lt;/p&gt;
&lt;h2 id=&#34;マルチモーダル視覚モデルを起動する&#34;&gt;マルチモーダル視覚モデルを起動する
&lt;/h2&gt;&lt;p&gt;マルチモーダル視覚モデルでは、通常メインモデルファイルだけでなく、&lt;code&gt;mmproj&lt;/code&gt; 視覚投影ファイルも必要です。起動時にはメインモデルと &lt;code&gt;mmproj&lt;/code&gt; を同時に指定します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-powershell&#34; data-lang=&#34;powershell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;llama-server&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;py&#34;&gt;exe&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-m&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;models\main-model.gguf&amp;#34;&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;-mmproj&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;models\mmproj-model.gguf&amp;#34;&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-ngl&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;999&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;主な用途は次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;OCR認識&lt;/li&gt;
&lt;li&gt;スクリーンショット理解&lt;/li&gt;
&lt;li&gt;Webページスクリーンショット解析&lt;/li&gt;
&lt;li&gt;画像Q&amp;amp;A&lt;/li&gt;
&lt;li&gt;簡単な視覚内容判定&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;たとえば Qwen2-VL / Qwen2.5-VL 系の視覚モデルは、中国語スクリーンショット理解、OCR、画像とテキストのQ&amp;amp;Aで実用的です。メインモデルと &lt;code&gt;mmproj&lt;/code&gt; ファイルが対応しているか必ず確認してください。バージョン不一致は読み込み失敗や異常な結果につながりやすいです。&lt;/p&gt;
&lt;h2 id=&#34;batスクリプトで複数モデルを管理する&#34;&gt;batスクリプトで複数モデルを管理する
&lt;/h2&gt;&lt;p&gt;ローカルに複数モデルを置く場合、簡単な &lt;code&gt;.bat&lt;/code&gt; スクリプトでメニュー切り替えできます。以下は例です。パスとモデル名は自分の環境に合わせて変更してください。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bat&#34; data-lang=&#34;bat&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;@&lt;/span&gt;&lt;span class=&#34;k&#34;&gt;echo&lt;/span&gt; off
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;chcp 65001 &lt;span class=&#34;p&#34;&gt;&amp;gt;&lt;/span&gt;nul
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;cd&lt;/span&gt; /d C:\path\to\llama-b9196-bin-win-cuda-13.1-x64
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;echo&lt;/span&gt; 请选择模型：
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;echo&lt;/span&gt; 1. Gemma
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;echo&lt;/span&gt; 2. Qwen VL 多模态
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;echo&lt;/span&gt; 3. DeepSeek
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;set&lt;/span&gt; &lt;span class=&#34;k&#34;&gt;/p&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;choice&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;=&lt;/span&gt;输入数字：
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;if&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span class=&#34;nv&#34;&gt;%choice%&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;==&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;1&amp;#34;&lt;/span&gt; llama-server.exe -m &lt;span class=&#34;s2&#34;&gt;&amp;#34;models\gemma.gguf&amp;#34;&lt;/span&gt; -ngl 999
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;if&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span class=&#34;nv&#34;&gt;%choice%&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;==&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;2&amp;#34;&lt;/span&gt; llama-server.exe -m &lt;span class=&#34;s2&#34;&gt;&amp;#34;models\qwen-vl.gguf&amp;#34;&lt;/span&gt; --mmproj &lt;span class=&#34;s2&#34;&gt;&amp;#34;models\mmproj.gguf&amp;#34;&lt;/span&gt; -ngl 999
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;if&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span class=&#34;nv&#34;&gt;%choice%&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;==&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;3&amp;#34;&lt;/span&gt; llama-server.exe -m &lt;span class=&#34;s2&#34;&gt;&amp;#34;models\deepseek.gguf&amp;#34;&lt;/span&gt; -ngl 999
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;pause&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;保存時はUTF-8エンコーディングを推奨します。その後、拡張子を &lt;code&gt;.bat&lt;/code&gt; に変更します。ダブルクリックすると数字でモデルを選べます。&lt;/p&gt;
&lt;h2 id=&#34;モデル選びで見るべき3点&#34;&gt;モデル選びで見るべき3点
&lt;/h2&gt;&lt;p&gt;第一にハードウェアです。VRAMが大きいほど大きなモデルを動かせます。VRAMが足りない場合、大きなモデルを無理に使わず、7B、8B、または低めの量子化版から始めるのが安全です。&lt;/p&gt;
&lt;p&gt;第二に用途です。日常的なQ&amp;amp;A、要約、書き換えなら、小型モデルや中程度の量子化で十分なことが多いです。コード、長文書解析、マルチモーダル理解をしたいなら、より強いモデルとより多いVRAMが必要です。&lt;/p&gt;
&lt;p&gt;第三にライセンスと安全境界です。ネット上には多くのコミュニティ改変モデルがありますが、能力、制限、ライセンスはそれぞれ異なります。ダウンロード前に、出所、ライセンス、適用場面、リスクを確認してください。出所不明のモデルに本番タスクを直接任せるのはおすすめしません。&lt;/p&gt;
&lt;h2 id=&#34;よくある問題&#34;&gt;よくある問題
&lt;/h2&gt;&lt;p&gt;起動時にDLL不足が出る場合は、まずダウンロードしたパッケージとGPUルートが合っているか確認してください。NVIDIAユーザーがHIP版を誤って落としたり、AMDユーザーがCUDA版を落としたりしないようにします。&lt;/p&gt;
&lt;p&gt;モデル読み込みが遅い場合、モデルが大きすぎる、ディスクが遅い、またはVRAM不足で一部レイヤーがCPUに戻っている可能性があります。&lt;/p&gt;
&lt;p&gt;Webページが開かない場合は、コマンドラインでサービスが正常に起動しているかを先に確認し、ポートが &lt;code&gt;8080&lt;/code&gt; かどうかも見ます。ポートが使われている場合は、&lt;code&gt;llama-server&lt;/code&gt; のパラメータでポートを変更できます。&lt;/p&gt;
&lt;p&gt;マルチモーダルモデルの結果がおかしい場合は、プロンプトを変える前に、&lt;code&gt;mmproj&lt;/code&gt; ファイルがメインモデルと対応しているかを確認します。&lt;/p&gt;
&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;p&gt;今回のWindowsプリビルドパッケージの価値は、ローカルAIの入口を下げたことです。以前は多くのユーザーがビルドや依存関係でつまずいていましたが、今は「モデルをダウンロードし、サービスを起動し、結果を試す」段階に早く入れます。&lt;/p&gt;
&lt;p&gt;Windowsユーザー向けには、ルート選択を簡単にまとめると次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;NVIDIA：CUDAを優先。&lt;/li&gt;
&lt;li&gt;AMD：まずVulkanを試し、その後HIPを見る。&lt;/li&gt;
&lt;li&gt;Intel：SYCLまたはVulkanを試す。&lt;/li&gt;
&lt;li&gt;単体GPUなし：CPU版で小型モデルを動かす。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;実際に使う前には、モデルの出所、ライセンス、VRAM要件、実際の出力を確認してください。ローカルAIの利点は制御しやすく、オフラインで、低遅延なことです。ただしコストがないわけではありません。モデル管理、ハードウェア資源、出力品質は自分で面倒を見る必要があります。&lt;/p&gt;
&lt;p&gt;参考元：&lt;a class=&#34;link&#34; href=&#34;https://www.freedidi.com/24211.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://www.freedidi.com/24211.html&lt;/a&gt;&lt;/p&gt;
</description>
        </item>
        <item>
        <title>DeepSeek 4 をローカルで動かす：Apple Silicon Mac における Antirez ds4 の試み</title>
        <link>https://knightli.com/ja/2026/05/11/deepseek-v4-flash-ds4-metal/</link>
        <pubDate>Mon, 11 May 2026 08:51:37 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/05/11/deepseek-v4-flash-ds4-metal/</guid>
        <description>&lt;p&gt;Antirez が新しいプロジェクト &lt;code&gt;ds4&lt;/code&gt; をオープンソース化しました。これは汎用 LLM フレームワークではなく、DeepSeek V4 Flash 向けのローカル推論エンジンで、Apple Silicon と Metal バックエンドに重点を置いています。&lt;/p&gt;
&lt;p&gt;プロジェクト URL：&lt;a class=&#34;link&#34; href=&#34;https://github.com/antirez/ds4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/antirez/ds4&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&#34;ds4-とは&#34;&gt;ds4 とは
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; の目的は明確です。Mac 上で DeepSeek V4 Flash をローカル実行することです。&lt;/p&gt;
&lt;p&gt;現在は、次の 3 つの使い方が用意されています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;対話型 CLI。&lt;/li&gt;
&lt;li&gt;HTTP server。&lt;/li&gt;
&lt;li&gt;実験的な Agent モード。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;位置づけとしては、&lt;code&gt;llama.cpp&lt;/code&gt;、Ollama、vLLM のような汎用ツールを置き換えるものではなく、特定のモデルに深く最適化した推論プロジェクトに近いものです。&lt;/p&gt;
&lt;h2 id=&#34;なぜ注目に値するのか&#34;&gt;なぜ注目に値するのか
&lt;/h2&gt;&lt;p&gt;この種のプロジェクトが注目に値する理由は主に 3 つあります。&lt;/p&gt;
&lt;p&gt;第一に、作者が Redis の作者である Antirez であることです。彼は長く低レイヤーのシステム、性能、シンプルなツールに関心を持っており、プロジェクトの作風も比較的ストレートです。&lt;/p&gt;
&lt;p&gt;第二に、DeepSeek V4 Flash は効率的な推論を指向するモデルです。ローカル実行の体験が十分によければ、Mac ユーザーにとってかなり魅力的です。&lt;/p&gt;
&lt;p&gt;第三に、&lt;code&gt;ds4&lt;/code&gt; は Apple Metal を直接ターゲットにしています。最初にあらゆるプラットフォームをサポートしてから徐々に最適化する路線ではなく、明確な 1 つの場面を深く掘るプロジェクトに見えます。&lt;/p&gt;
&lt;h2 id=&#34;誰に向いているか&#34;&gt;誰に向いているか
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; は、次のようなユーザーに向いています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Apple Silicon Mac を使っている。&lt;/li&gt;
&lt;li&gt;DeepSeek V4 Flash をローカルで動かしたい。&lt;/li&gt;
&lt;li&gt;Metal 推論性能に関心がある。&lt;/li&gt;
&lt;li&gt;alpha 段階のプロジェクトを試すことに抵抗がない。&lt;/li&gt;
&lt;li&gt;軽量な推論エンジンやモデル実行の細部を調べたい。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;安定したデプロイ、クロスプラットフォーム実行、OpenAI API 互換のエコシステムが目的なら、現時点では第一候補ではないかもしれません。実験用ツール、または技術的な観察対象として見るのがよさそうです。&lt;/p&gt;
&lt;h2 id=&#34;使い方&#34;&gt;使い方
&lt;/h2&gt;&lt;p&gt;プロジェクト README にある基本的な流れは、まずビルドしてから実行するというものです。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/antirez/ds4.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; ds4
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;make
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;対話的に実行する場合：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./ds4
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;HTTP server を起動する場合：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./ds4 --server
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Agent モード：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./ds4 --agent
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;具体的なパラメータやモデルファイルの準備方法は、プロジェクトがまだ速いペースで変化しているため、リポジトリの README を確認するのが確実です。&lt;/p&gt;
&lt;h2 id=&#34;現時点のリスク&#34;&gt;現時点のリスク
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; はまだ初期段階のプロジェクトなので、使う前に次の点を想定しておく必要があります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;機能が完全ではない可能性があります。&lt;/li&gt;
&lt;li&gt;パラメータ、モデル形式、コマンドラインの挙動が変わる可能性があります。&lt;/li&gt;
&lt;li&gt;互換性は主に Apple Silicon と Metal を中心にしています。&lt;/li&gt;
&lt;li&gt;Agent モードは実験的な性格が強く、本番フローに直接使うには向いていません。&lt;/li&gt;
&lt;li&gt;問題が起きた場合、自分で README、issue、ソースコードを読んで調べる必要があります。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;つまり、現時点では一般ユーザー向けのワンクリックツールというより、試してみる価値のあるオープンソース実験です。&lt;/p&gt;
&lt;h2 id=&#34;汎用推論ツールとの違い&#34;&gt;汎用推論ツールとの違い
&lt;/h2&gt;&lt;p&gt;汎用推論ツールは通常、モデル形式、プラットフォーム、バックエンド、API の広い互換性を目指します。&lt;code&gt;ds4&lt;/code&gt; の方向性はもっと狭く、DeepSeek V4 Flash と Metal によるローカル実行に絞られています。&lt;/p&gt;
&lt;p&gt;この選択には利点と代償があります。&lt;/p&gt;
&lt;p&gt;利点は、実装を集中させやすく、性能や体験を単一の目標に合わせて最適化しやすいことです。代償は、適用範囲が限られることです。さまざまなモデルを動かすための道具ではなく、完全なデプロイ基盤の置き換えにも向いていません。&lt;/p&gt;
&lt;p&gt;すでに &lt;code&gt;llama.cpp&lt;/code&gt; や Ollama を使っているなら、&lt;code&gt;ds4&lt;/code&gt; は既存のワークフローをすぐ置き換えるものではなく、補助的なテストツールとして見るのが自然です。&lt;/p&gt;
&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; の見どころは、「また 1 つローカル大規模モデルツールが増えた」ことではありません。DeepSeek V4 Flash、Apple Silicon、Metal、ローカル推論という狭い範囲に絞っている点です。&lt;/p&gt;
&lt;p&gt;手元に適した Mac があり、初期段階のプロジェクトを触ることに抵抗がないなら、今後の性能、モデル対応の方法、server/agent 機能の進化を追う価値があります。本番環境については、インターフェイスと使い方が安定してから評価するのがよいでしょう。&lt;/p&gt;
&lt;h2 id=&#34;参考&#34;&gt;参考
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;GitHub プロジェクト：&lt;a class=&#34;link&#34; href=&#34;https://github.com/antirez/ds4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/antirez/ds4&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>llama.cpp のマルチ GPU 性能を実測する考え方：2x V100 16GB は単体 32GB より速いのか？</title>
        <link>https://knightli.com/ja/2026/05/09/llama-cpp-multi-gpu-offload-performance/</link>
        <pubDate>Sat, 09 May 2026 15:05:41 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/05/09/llama-cpp-multi-gpu-offload-performance/</guid>
        <description>&lt;p&gt;大まかな結論は、llama.cpp のマルチ GPU offload は「2 枚目を足せば性能がそのまま増える」ものではない、ということです。モデルが最初から 1 枚の 32GB GPU に完全に収まるなら、2x V100 16GB は単体 32GB より扱いにくく、場合によっては遅くなります。逆に、モデルが 1 枚の 16GB に収まらないなら、2 枚構成の主な価値は「モデルを GPU に載せられること」で、その効果はかなり大きくなります。&lt;/p&gt;
&lt;h2 id=&#34;まず-split-mode-を分けて考える&#34;&gt;まず split mode を分けて考える
&lt;/h2&gt;&lt;p&gt;llama.cpp のマルチ GPU 利用では、主に &lt;code&gt;--split-mode&lt;/code&gt; と &lt;code&gt;--tensor-split&lt;/code&gt; が関係します。性能を考えるときは、まず次のモードを分けて見ます。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;layer&lt;/code&gt;：層ごとに別の GPU へ分割する方式。互換性が高く、多くの場合は最初に試す選択肢です。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;tensor&lt;/code&gt;：テンソル計算を複数 GPU に分割する方式。より並列計算に近い一方で、GPU 間の帯域とバックエンド対応に強く依存します。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;row&lt;/code&gt;：古い行分割方式です。今でも見かけますが、新規構成で最初に選ぶ方式ではありません。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;簡単に言えば、&lt;code&gt;layer&lt;/code&gt; は「階ごとに別のカードへ置く」ようなものです。単一 token 生成時には、2 枚のカードを同時に常に使い切れるとは限りません。&lt;code&gt;tensor&lt;/code&gt; は「同じ層を 2 枚のカードで一緒に計算する」形に近く、理論上は並列性がありますが、カード間通信がボトルネックになります。&lt;/p&gt;
&lt;h2 id=&#34;単体-32gb-に収まるなら双-16gb-が速いとは限らない&#34;&gt;単体 32GB に収まるなら、双 16GB が速いとは限らない
&lt;/h2&gt;&lt;p&gt;モデルと KV cache が 1 枚の 32GB GPU に完全に収まるなら、単体カードのほうが安定し、速いことも多いです。1x V100 32GB と 2x V100 16GB のような同世代ハードウェアでは、後者が必ず勝つとは言えません。&lt;/p&gt;
&lt;p&gt;保守的に見ると、2x V100 16GB は単体 V100 32GB より 10% から 40% 遅くなることがあります。特に、一人でのチャット、Continue Agent、コード Q&amp;amp;A のように、1 回のリクエストで主に 1 つの回答を生成する用途ではそうなりやすいです。&lt;/p&gt;
&lt;p&gt;理由は単純です。マルチ GPU は VRAM を単純に 1 つの高速なプールへ合体するわけではありません。layer 分割では推論が GPU 間を移動し、token 生成時に片方の GPU がもう片方を待つことがあります。tensor 分割では 2 枚で同時に計算できますが、中間結果の同期が必要になり、帯域と遅延がスループットに直接効きます。&lt;/p&gt;
&lt;p&gt;つまり選択肢が次の 2 つなら、&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;1x V100 32GB&lt;/li&gt;
&lt;li&gt;2x V100 16GB&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;対象モデルがすでに 1 枚の 32GB に完全に収まる場合、単体 32GB のほうが使いやすいことが多いです。&lt;/p&gt;
&lt;h2 id=&#34;単体-16gb-に収まらないなら双カードの価値は大きい&#34;&gt;単体 16GB に収まらないなら、双カードの価値は大きい
&lt;/h2&gt;&lt;p&gt;一方で、モデルが 1 枚の 16GB に収まらず、2 枚の 16GB なら収まる場合は話が変わります。&lt;/p&gt;
&lt;p&gt;このとき双カードの価値ははっきりしています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;1 枚の 16GB：大量の CPU offload が必要になり、速度が大きく落ちる可能性があります。&lt;/li&gt;
&lt;li&gt;2x 16GB：重みをできるだけ GPU に残せるため、CPU/GPU 混在実行よりかなり速くなる可能性があります。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;この場面では、2x V100 16GB が単体 32GB より速いとは限りません。それでも「1 枚 16GB と大量のシステムメモリ offload」より数倍速いことはあります。つまり双カードの第一の価値は加速ではなく、モデル重みを遅いシステムメモリへ落とさずに済むことです。&lt;/p&gt;
&lt;h2 id=&#34;v100-pcie-と-v100-sxm2-は大きく違う&#34;&gt;V100 PCIe と V100 SXM2 は大きく違う
&lt;/h2&gt;&lt;p&gt;マルチ GPU 推論で見落としやすいのがインターコネクトです。&lt;/p&gt;
&lt;p&gt;V100 SXM2 で、マシンに NVLink がある場合、GPU 間通信帯域はかなり高くなります。NVIDIA の V100 資料では、NVLink の相互接続帯域は最大 300GB/s とされています。この環境なら、&lt;code&gt;tensor&lt;/code&gt; や大きめの batch を使う場面で、単体カードに近い性能、あるいはそれを超える性能を狙いやすくなります。&lt;/p&gt;
&lt;p&gt;V100 PCIe の場合は、もっと保守的に見るべきです。V100 PCIe の相互接続は主に PCIe Gen3 で、資料上の interconnect bandwidth は 32GB/s です。NVLink とは桁が違うため、PCIe 双カードでは「VRAM は足りるが速度は 2 倍にならない」ことがよくあります。&lt;/p&gt;
&lt;p&gt;そのため 2x V100 16GB が価値ある構成かを判断するときは、VRAM を足して 32GB と見るだけでは足りません。PCIe 版なのか、SXM2/NVLink 版なのかも確認する必要があります。&lt;/p&gt;
&lt;h2 id=&#34;実際にはどう選ぶか&#34;&gt;実際にはどう選ぶか
&lt;/h2&gt;&lt;p&gt;モデルが 1 枚の 32GB GPU に収まるなら、まず単体カードを優先します。遅延、安定性、調整コストの面で有利なことが多いです。&lt;/p&gt;
&lt;p&gt;モデルが 1 枚の 16GB には収まらず、2 枚の 16GB なら収まるなら、双カードは使う価値があります。この場合の目的は、重みをできるだけ GPU に残すことであり、性能が線形に倍増することを期待することではありません。&lt;/p&gt;
&lt;p&gt;V100 PCIe の双カードなら、まず &lt;code&gt;--split-mode layer&lt;/code&gt; を試し、「安定して動くこと」と「CPU に落とす量を減らすこと」を目標にします。&lt;/p&gt;
&lt;p&gt;V100 SXM2/NVLink なら、&lt;code&gt;tensor&lt;/code&gt; 関連のモードを試す価値が高くなります。特に prefill、大きい batch、同時リクエストの場面で有効です。&lt;/p&gt;
&lt;h2 id=&#34;いつ-2x16gb-を買いいつ-1x32gb-を買うか&#34;&gt;いつ 2x16GB を買い、いつ 1x32GB を買うか
&lt;/h2&gt;&lt;p&gt;一人で使い、主にチャット、コード補完、Continue Agent、長文コンテキスト Q&amp;amp;A を行い、対象モデルが 32GB に収まるなら、1x32GB のほうが一般的にはおすすめです。GPU 間スケジューリングがなく、遅延が安定し、問題切り分けも簡単です。&lt;/p&gt;
&lt;p&gt;すでに 16GB カードを 1 枚持っていて、低コストで 30B、32B、または高めの量子化モデルを動かしたいなら、2x16GB には意味があります。token/s が倍になるとは限りませんが、本来 CPU offload が必要だった重みを GPU に残せます。&lt;/p&gt;
&lt;p&gt;新規に購入するなら、優先度は次のように考えられます。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;単一モデル、単一ユーザー、応答遅延重視：1x32GB を優先。&lt;/li&gt;
&lt;li&gt;モデルが単体カードに収まらず、予算が限られる：2x16GB を検討。&lt;/li&gt;
&lt;li&gt;NVLink または SXM2 マシンがある：2x16GB の有用性は通常の PCIe 双カードよりかなり高い。&lt;/li&gt;
&lt;li&gt;将来さらに長いコンテキストを使いたい：重みサイズだけでなく、KV cache 用の VRAM も残す。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;layer-split-と-tensor-split-の実用的な使い方&#34;&gt;layer split と tensor split の実用的な使い方
&lt;/h2&gt;&lt;p&gt;実用上のおすすめは、まず &lt;code&gt;layer&lt;/code&gt;、次に &lt;code&gt;tensor&lt;/code&gt; を測ることです。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;layer&lt;/code&gt; は出発点に向いています。モデルを層単位で分配し、互換性が高く、PCIe 双カードにも比較的向いています。欠点は、生成段階がパイプラインのようになり、ある時点では片方のカードだけが忙しく、もう片方が待つことがある点です。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;tensor&lt;/code&gt; は、V100 SXM2/NVLink のように相互接続帯域が高いマシンに向いています。同じ層の計算の一部を複数 GPU に分けるため、理論上は並列性があります。ただしカード間同期が増えます。PCIe 双カードでは、通信コストが利益を食いつぶす可能性があります。&lt;/p&gt;
&lt;p&gt;実際のテストは、まず次のような組み合わせから始めます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-bench -m model.gguf -ngl &lt;span class=&#34;m&#34;&gt;99&lt;/span&gt; --split-mode layer --tensor-split 1,1
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-bench -m model.gguf -ngl &lt;span class=&#34;m&#34;&gt;99&lt;/span&gt; --split-mode tensor --tensor-split 1,1
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-bench -m model.gguf -ngl &lt;span class=&#34;m&#34;&gt;99&lt;/span&gt; --split-mode layer --tensor-split 1,0
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;3 つ目は長期運用向けではありません。単体カードの参照値を取るためです。これにより、双カードが本当に速いのか、それとも単に VRAM 圧力を分散しているだけなのかを見分けられます。&lt;/p&gt;
&lt;h2 id=&#34;prefill-と-decode-で性能が違う理由&#34;&gt;prefill と decode で性能が違う理由
&lt;/h2&gt;&lt;p&gt;ローカル LLM の性能は、通常 2 つの段階に分けて見るべきです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;prefill&lt;/code&gt;：入力 prompt を処理します。代表的な指標は &lt;code&gt;pp512&lt;/code&gt; のような prompt processing スループットです。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;decode&lt;/code&gt;：回答を token ごとに生成します。代表的な指標は &lt;code&gt;tg128&lt;/code&gt; のような token generation スループットです。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;code&gt;prefill&lt;/code&gt; は大きな batch の行列計算に近く、GPU を使い切りやすく、マルチ GPU 並列化の恩恵も受けやすいです。&lt;code&gt;decode&lt;/code&gt; は 1 token ずつ生成するため、batch が小さく同期が頻繁です。そのためカード間通信とスケジューリング遅延が表に出やすくなります。&lt;/p&gt;
&lt;p&gt;そのため、双カードで &lt;code&gt;pp512&lt;/code&gt; は良くなるのに、&lt;code&gt;tg128&lt;/code&gt; はほとんど改善しない、あるいは遅くなることがあります。チャットや Agent の体感は &lt;code&gt;tg128&lt;/code&gt; に近く、長文投入、batch prefill、同時リクエスト処理では &lt;code&gt;pp512&lt;/code&gt; も重要になります。&lt;/p&gt;
&lt;h2 id=&#34;kv-cache-は第-2-の-vram-ボトルネックになるか&#34;&gt;KV cache は第 2 の VRAM ボトルネックになるか
&lt;/h2&gt;&lt;p&gt;なります。多くの人はモデル重みだけを計算し、KV cache を忘れます。&lt;/p&gt;
&lt;p&gt;モデル重みは「モデルをロードできるか」を決めます。KV cache は「必要なコンテキスト長を使えるか」を決めます。コンテキストが長く、同時実行が多く、batch が大きいほど、KV cache の占有は目立ちます。モデル本体は 32GB に収まるのに、32K や 64K コンテキストを開くと VRAM が足りなくなることがあります。&lt;/p&gt;
&lt;p&gt;少なくとも次の分の VRAM 余裕を残して考えるべきです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;KV cache&lt;/li&gt;
&lt;li&gt;CUDA graph またはバックエンドのランタイムオーバーヘッド&lt;/li&gt;
&lt;li&gt;prompt batch と ubatch&lt;/li&gt;
&lt;li&gt;デスクトップ、ドライバ、他プロセスの使用量&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;2x16GB を使う場合、VRAM は完全に等価な 32GB の大きなプールではありません。一部のバッファ、KV cache、中間テンソルは、単一カードの残り VRAM に制限される場合があります。長文コンテキストを測るときは、モデルが起動するかだけでなく、実際の &lt;code&gt;--ctx-size&lt;/code&gt; と同時実行数でテストするのが安全です。&lt;/p&gt;
&lt;h2 id=&#34;llama-bench-で双カードを自分で測る&#34;&gt;llama-bench で双カードを自分で測る
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;llama-bench&lt;/code&gt; は、直接チャットするよりハードウェア比較に向いています。prompt processing と token generation を分けて比較できるためです。公式 README の基本例は次の通りです。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-bench -m model.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;双 V100 なら、少なくとも次の組み合わせを測ります。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;8
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# Single-card baseline&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;CUDA_VISIBLE_DEVICES&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;0&lt;/span&gt; llama-bench -m model.gguf -ngl &lt;span class=&#34;m&#34;&gt;99&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# Dual-card layer split&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;CUDA_VISIBLE_DEVICES&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;0,1 llama-bench -m model.gguf -ngl &lt;span class=&#34;m&#34;&gt;99&lt;/span&gt; --split-mode layer --tensor-split 1,1
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# Dual-card tensor split&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;CUDA_VISIBLE_DEVICES&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;0,1 llama-bench -m model.gguf -ngl &lt;span class=&#34;m&#34;&gt;99&lt;/span&gt; --split-mode tensor --tensor-split 1,1
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;特に見るべき列は 2 つです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;pp512&lt;/code&gt;：prompt processing。長い入力や batch prefill に関係します。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;tg128&lt;/code&gt;：token generation。単一ユーザーのチャットや Agent の体感に関係します。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;テスト時は、モデル、量子化形式、コンテキスト長、batch、ドライババージョン、llama.cpp バージョンを固定します。各組み合わせを複数回実行し、一度だけの結果ではなく中央値で比べるほうが信頼できます。最後に、Continue Agent、OpenAI-compatible server、自分の RAG リクエストなど、実際のワークフローでも確認します。benchmark が良くても、対話体験が必ず良くなるとは限らないためです。&lt;/p&gt;
&lt;h2 id=&#34;一言でまとめると&#34;&gt;一言でまとめると
&lt;/h2&gt;&lt;p&gt;2x V100 16GB の強みは主に VRAM 容量であり、生成速度が必ず上がることではありません。モデルが単体カードに収まるなら、単体 32GB のほうが速く安定しやすいです。モデルが 1 枚 16GB に収まらないなら、双 16GB の価値は大きくなります。大量の CPU offload を避けられるためです。実際に速くなるかは、split mode、batch、モデルサイズ、そして 2 枚の V100 が PCIe でつながっているのか NVLink なのかで決まります。&lt;/p&gt;
&lt;p&gt;参考資料：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;llama.cpp server README&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.mintlify.com/ggml-org/llama.cpp/concepts/backends&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;llama.cpp Compute Backends&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.nvidia.com/en-gb/data-center/tesla-v100/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA Tesla V100&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://images.nvidia.com/content/technologies/volta/pdf/tesla-volta-v100-datasheet.pdf&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA V100 Datasheet&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>RTX 5090 / 5080 AI推論ベンチマーク：ローカルLLM、4K動画、リアルタイム3Dの選び方</title>
        <link>https://knightli.com/ja/2026/05/08/rtx-5090-5080-ai-inference-benchmark/</link>
        <pubDate>Fri, 08 May 2026 10:07:19 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/05/08/rtx-5090-5080-ai-inference-benchmark/</guid>
        <description>&lt;p&gt;RTX 50シリーズがローカルAIユーザーにとって魅力的なのは、ゲーム性能だけが理由ではない。Blackwellアーキテクチャ、GDDR7メモリ、第5世代Tensor Coreによって、デスクトップAIワークステーションとしての可能性が広がったからだ。ローカルLLM、画像生成、動画補正、リアルタイム3Dを扱う人にとって、GPUは単なる描画装置ではなくなっている。&lt;/p&gt;
&lt;p&gt;RTX 5090とRTX 5080の差は、型番だけでは判断できない。どちらもBlackwellで、DLSS 4、第5世代Tensor Core、FP4をサポートする。ただしローカルAI推論の体験を決めるのは、多くの場合VRAM容量、メモリ帯域幅、ソフトウェア対応、モデルとの相性だ。&lt;/p&gt;
&lt;p&gt;結論から言えば、RTX 5090は単体GPUでローカルAIを本格的に動かすための旗艦に近い。大きなモデル、長いコンテキスト、画像生成、動画AIに向く。RTX 5080は予算を抑えたい場合や、16GB VRAMに収まる小中規模モデルとワークフローに向く。どちらも前世代より進歩しているが、すべてのAIアプリがすぐにBlackwellの新機能を使い切れるわけではない。&lt;/p&gt;
&lt;h2 id=&#34;まずハードウェア差を見る&#34;&gt;まずハードウェア差を見る
&lt;/h2&gt;&lt;p&gt;RTX 5090の主な仕様は、32GB GDDR7、512-bitメモリバス、21760基のCUDA Core、3352 AI TOPSだ。Puget Systemsの公開テストでも、約1.79TB/sのメモリ帯域幅が強調されている。RTX 4090の24GB、約1.01TB/sと比べると、AIワークロードでは意味のある差になる。&lt;/p&gt;
&lt;p&gt;RTX 5080はより控えめで、16GB GDDR7、256-bitメモリバス、10752基のCUDA Core、1801 AI TOPSとなる。帯域幅は約960GB/sでRTX 4080系からは大きく伸びたが、VRAM容量は16GBのままだ。&lt;/p&gt;
&lt;p&gt;つまり両者の役割はかなり明確だ。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;RTX 5090は32GB VRAMと高帯域幅により、大きなモデル、長いコンテキスト、重いマルチモーダル処理に向く。&lt;/li&gt;
&lt;li&gt;RTX 5080は価格と消費電力を抑えやすく、小中規模モデル、画像生成、軽い動画処理、開発検証に向く。&lt;/li&gt;
&lt;li&gt;すでにVRAMで詰まる処理では、RTX 5080の計算性能だけでは16GBの制約を埋めにくい。&lt;/li&gt;
&lt;li&gt;ソフトウェア最適化がボトルネックなら、RTX 5090でもRTX 4090との差が理論値ほど広がらないことがある。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ローカルAI推論では「まずVRAMが動くかどうかを決め、次に帯域幅が快適さを決める」ことが多い。これが、RTX 5090がローカルLLMユーザーに強く刺さる理由だ。&lt;/p&gt;
&lt;h2 id=&#34;ローカルllmでは32gb-vramが重要&#34;&gt;ローカルLLMでは32GB VRAMが重要
&lt;/h2&gt;&lt;p&gt;LLMを動かすとき、VRAMは主にモデル重み、KV cache、ランタイムのオーバーヘッドに使われる。モデルが大きいほど、コンテキストが長いほど、同時実行が多いほど、VRAMの圧力は高くなる。&lt;/p&gt;
&lt;p&gt;RTX 5080の16GBでも、7B、8B、14B級モデルの多くは動かせる。4-bit量子化を使えば一部のより大きなモデルも試せる。しかし30B級モデル、長いコンテキスト、WebUI、RAG、音声、ツール呼び出しを同時に扱うと、16GBはすぐに上限になりやすい。&lt;/p&gt;
&lt;p&gt;RTX 5090の32GBは、ローカル推論にかなり余裕を与える。特に次の用途に向く。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;30B前後の量子化大規模モデルを動かす。&lt;/li&gt;
&lt;li&gt;7B、14Bモデルで長めのコンテキストを維持する。&lt;/li&gt;
&lt;li&gt;ローカルコード助手、ナレッジベースQ&amp;amp;A、Agentの検証を行う。&lt;/li&gt;
&lt;li&gt;埋め込みモデル、reranker、マルチモーダル部品を同時に読み込む。&lt;/li&gt;
&lt;li&gt;単体マシンでモデル切り替えやコンテキスト削減の手間を減らす。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ただし32GBも万能ではない。70B級モデルは4-bit量子化でも、コンテキスト、実行パラメータ、VRAM断片化に注意が必要になる。高い同時実行を狙うなら、複数GPUやサーバー向けGPUのほうが適している。&lt;/p&gt;
&lt;p&gt;個人利用では、RTX 5090の価値は「悩む場面が減る」ことにある。選べるモデルが増え、長いコンテキストを取りやすく、GUIや周辺ツールも同時に動かしやすい。&lt;/p&gt;
&lt;h2 id=&#34;fp4は可能性でありすべてのアプリで即効くわけではない&#34;&gt;FP4は可能性であり、すべてのアプリで即効くわけではない
&lt;/h2&gt;&lt;p&gt;Blackwellの大きな変化の一つが、第5世代Tensor CoreによるFP4サポートだ。NVIDIAのTensorRT関連資料では、FP4によりモデルのメモリ使用量とデータ移動を減らし、FLUXなどの生成モデルのローカル推論を最適化できると説明されている。&lt;/p&gt;
&lt;p&gt;これは画像生成と将来のLLM推論にとって重要だ。低精度はVRAM使用量を減らすだけでなく、帯域幅の圧力も下げる。RTX 5090のような高帯域GPUでは、フレームワークとモデルが十分対応すれば利点はさらに大きくなる。&lt;/p&gt;
&lt;p&gt;ただしFP4の効果はソフトウェア経路に依存する。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;モデルに適切なFP4量子化版があるか。&lt;/li&gt;
&lt;li&gt;推論フレームワークが必要な演算子をサポートしているか。&lt;/li&gt;
&lt;li&gt;TensorRT、ComfyUI、PyTorch、ONNX、プラグインが対応済みか。&lt;/li&gt;
&lt;li&gt;精度低下をそのタスクで許容できるか。&lt;/li&gt;
&lt;li&gt;ユーザーが性能のためにワークフローを調整できるか。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;そのため、RTX 50シリーズのAI性能はFP4のピーク値だけでは評価できない。BlackwellはFP4の土台を提供したが、実際の体験はアプリ側の更新速度に左右される。早期ユーザーは一部の恩恵を先に得られるが、一般ユーザーはエコシステムの成熟を待つ場面もある。&lt;/p&gt;
&lt;h2 id=&#34;画像生成と4k動画帯域幅とvramの両方が効く&#34;&gt;画像生成と4K動画：帯域幅とVRAMの両方が効く
&lt;/h2&gt;&lt;p&gt;Stable Diffusion、FLUX、動画超解像、フレーム補間、ノイズ除去、切り抜き、生成動画はいずれもVRAMに敏感だ。解像度が高いほどVRAM使用量は増え、ノードが多いほどランタイムの負荷も増える。ControlNet、LoRA、高解像度修復、バッチ生成を同時に使うとさらに重くなる。&lt;/p&gt;
&lt;p&gt;RTX 5080は16GBの範囲で多くの画像生成タスクをこなせる。1024px級の画像、軽いLoRA、一般的なComfyUIワークフローなら十分速い。問題は、より大きなキャンバス、複雑なノードグラフ、高いbatch、長いシーケンスを持つ動画生成で出やすい。&lt;/p&gt;
&lt;p&gt;RTX 5090の利点は4K動画関連でより明確になる。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;32GB VRAMは高解像度フレーム、長いシーケンス、複雑なノードグラフに向く。&lt;/li&gt;
&lt;li&gt;約1.79TB/sの帯域幅はデータ移動のボトルネックを減らしやすい。&lt;/li&gt;
&lt;li&gt;3基の第9世代NVENCは書き出し、トランスコード、制作フローに有利だ。&lt;/li&gt;
&lt;li&gt;FP4とTensorRT対応が成熟すれば、画像生成モデルの伸びも期待できる。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一方で、公開されている動画AI実測は注意点も示している。Puget SystemsはDaVinci Resolve AIやTopaz Video AIのテストで、RTX 5090が常にRTX 4090を大きく上回るわけではなく、RTX 5080もRTX 4080系と常に大差をつけるわけではないと報告している。動画AIは仕様だけでは決まらず、プラグイン、ドライバ、モデル実装も重要だ。&lt;/p&gt;
&lt;p&gt;つまり、ワークフローがすでにBlackwell、TensorRT、FP4を明確にサポートしているならRTX 50シリーズは期待しやすい。まだ最適化されていない商用ソフトに依存するなら、アップグレード効果はバージョン次第になる。&lt;/p&gt;
&lt;h2 id=&#34;リアルタイム3dとaiモデリングrtx-5090は重いシーン向け&#34;&gt;リアルタイム3DとAIモデリング：RTX 5090は重いシーン向け
&lt;/h2&gt;&lt;p&gt;リアルタイム3Dモデリング、ニューラルレンダリング、3Dアセット生成、ビューポートAI加速では、CUDA、RT Core、Tensor Core、VRAMを同時に使うことが多い。純粋なLLMと違い、token生成速度だけでなく、シーンの複雑さ、材質、ジオメトリ、レイトレーシング、AIノイズ除去、ビューポートのフレームレートも重要になる。&lt;/p&gt;
&lt;p&gt;RTX 5080は4Kゲーム、リアルタイムプレビュー、中規模の制作プロジェクトに十分対応できる。個人クリエイターにとっては現実的な高性能選択肢だ。&lt;/p&gt;
&lt;p&gt;RTX 5090は次のような場面により向く。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;複雑な3Dシーンのリアルタイムプレビュー。&lt;/li&gt;
&lt;li&gt;高解像度材質と大規模アセット。&lt;/li&gt;
&lt;li&gt;AIノイズ除去、超解像、生成支援モデリングの同時利用。&lt;/li&gt;
&lt;li&gt;D5 Render、Blender、Unreal Engineなどの重い作業。&lt;/li&gt;
&lt;li&gt;モデリングしながらローカルAI助手や参考画像生成を動かす。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;NVIDIAはRTX 50シリーズが制作アプリで生成AI、動画編集、3Dレンダリングを改善すると説明している。ただし実際のプロジェクトでは、ソフトウェアが新しいハードウェア経路を使っているかを確認する必要がある。本番環境では、自分のプロジェクトファイルで試すのが最も確実だ。&lt;/p&gt;
&lt;h2 id=&#34;どう選ぶか&#34;&gt;どう選ぶか
&lt;/h2&gt;&lt;p&gt;ローカルLLMが目的なら、まずVRAMを見る。RTX 5080の16GBでも軽量モデルは多く動くが、「高性能な入門ローカルAIカード」に近い。RTX 5090の32GBは「単体GPUローカルLLMワークステーション」に近い。&lt;/p&gt;
&lt;p&gt;画像生成が目的なら、RTX 5080でも日常的なワークフローはかなり覆える。高解像度、多ノード、バッチ生成、FLUX、動画生成をよく使うなら、RTX 5090のVRAM余裕が重要になる。&lt;/p&gt;
&lt;p&gt;4K動画AIが目的ならRTX 5090のほうが安定しやすい。ただしTopaz、DaVinci Resolve、ComfyUI、TensorRTプラグイン、ドライバのバージョンで結果は変わる。&lt;/p&gt;
&lt;p&gt;リアルタイム3DならRTX 5080でも多くの制作需要を満たせる。RTX 5090は重いシーン、複数アプリの同時利用、長時間制作に向く。&lt;/p&gt;
&lt;p&gt;すでにRTX 4090を持っているなら、アップグレードは慎重に考えたい。RTX 5090はVRAMと帯域幅で強いが、現行AIソフトの一部はBlackwellの利点をまだ完全に使えていない。32GB、より高い帯域幅、新しいエンコーダが明確に必要でなければ、エコシステムの成熟を待つ選択もある。&lt;/p&gt;
&lt;p&gt;RTX 30シリーズ以前からの更新なら、RTX 50シリーズの差はかなり分かりやすい。特に8GB、10GB、12GBから16GBまたは32GBへ移ると、ローカルAIで動かせる範囲が直接広がる。&lt;/p&gt;
&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;p&gt;RTX 5090とRTX 5080は、どちらもコンシューマーGPUをローカルAI時代へさらに進める製品だ。ただし向いているユーザーは異なる。&lt;/p&gt;
&lt;p&gt;RTX 5090の価値は、32GB GDDR7、非常に高いメモリ帯域幅、より充実した制作向けハードウェア構成にある。単体マシンで大きなモデル、複雑な画像生成、重い動画AI、リアルタイム3Dを扱いたい人に向く。&lt;/p&gt;
&lt;p&gt;RTX 5080の価値は、より低いコストでBlackwellに入れることだ。16GBに収まる中小モデル、日常的な画像生成、開発テスト、高性能な制作作業に向く。&lt;/p&gt;
&lt;p&gt;購入判断はシンプルだ。まず自分のモデルとプロジェクトがVRAMに収まるかを見て、次にソフトウェアがBlackwellに最適化されているかを確認し、最後に理論上のAI TOPSを見る。ローカルAIでは、ピーク値より安定して最後まで走ることのほうが重要だ。&lt;/p&gt;
&lt;h2 id=&#34;参考資料&#34;&gt;参考資料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.nvidia.com/en-us/geforce/graphics-cards/50-series/rtx-5090/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA GeForce RTX 5090 公式仕様&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.nvidia.com/en-us/geforce/graphics-cards/50-series/rtx-5080/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA GeForce RTX 5080 公式仕様&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.nvidia.com/en-us/geforce/news/rtx-5090-5080-out-now/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA: GeForce RTX 5090 &amp;amp; 5080 Out Now&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://developer.nvidia.com/blog/nvidia-tensorrt-unlocks-fp4-image-generation-for-nvidia-blackwell-geforce-rtx-50-series-gpus/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA Technical Blog: TensorRT Unlocks FP4 Image Generation&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.pugetsystems.com/labs/articles/nvidia-geforce-rtx-5090-amp-5080-ai-review/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Puget Systems: NVIDIA GeForce RTX 5090 &amp;amp; 5080 AI Review&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>DeepSeek V4のローカル私有化デプロイ：国産チップとコンシューマーGPUクラスターの選び方</title>
        <link>https://knightli.com/ja/2026/05/08/deepseek-v4-local-private-deployment/</link>
        <pubDate>Fri, 08 May 2026 09:39:35 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/05/08/deepseek-v4-local-private-deployment/</guid>
        <description>&lt;p&gt;DeepSeek V4の公開後、多くの企業が一つの問題に注目し始めた。外部APIを使わず、自社のデータセンター、プライベートクラウド、専用クラスターにモデルを配置できるのか、という問題だ。&lt;/p&gt;
&lt;p&gt;この需要は非常に現実的だ。金融、医療、政府・企業、製造、法務、研究開発チームは、社内文書、コード、契約書、チケット、顧客データをそのままパブリッククラウドのモデルへ送れないことが多い。こうした場面でDeepSeek V4が魅力的なのは、モデル能力だけではなく、企業に「制御可能なLLMインフラ」に近い選択肢を与える点にある。&lt;/p&gt;
&lt;p&gt;ただし、DeepSeek V4のローカルデプロイは、モデルをダウンロードしてGPUを数枚用意すれば動く、という話ではない。特にProのような超大規模MoEモデルでは、総パラメータ規模、アクティブパラメータ、コンテキスト長、KV cache、同時実行数、推論フレームワークがそのままハードウェアコストを左右する。企業が本当にやるべきことは、フルスペック版を盲目的に追うことではなく、まず業務に必要なデプロイ形態を確認することだ。&lt;/p&gt;
&lt;h2 id=&#34;まずデプロイ目標を明確にする&#34;&gt;まずデプロイ目標を明確にする
&lt;/h2&gt;&lt;p&gt;企業がローカル私有化デプロイを行う目的は、主に三つある。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;データを域外に出さない：社内文書、コード、顧客資料、ログ、ナレッジベースを企業環境の外へ出さない。&lt;/li&gt;
&lt;li&gt;安定して制御できる：モデルサービス、権限、監査、ログ、アップグレードのペースを企業自身が管理する。&lt;/li&gt;
&lt;li&gt;長期コストを下げる：高頻度に呼び出す場合、ローカル推論は外部APIを長期購入するより制御しやすい可能性がある。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;少数の従業員がたまに質問するだけなら、ローカルデプロイは必ずしも割に合わない。私有化に本当に向いているのは、高頻度で、安定していて、データが敏感で、フローが明確な場面だ。例えば次のようなものがある。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;社内ナレッジベースQ&amp;amp;A。&lt;/li&gt;
&lt;li&gt;コードレビューと開発アシスタント。&lt;/li&gt;
&lt;li&gt;カスタマーサポートチケットの要約。&lt;/li&gt;
&lt;li&gt;契約書、カルテ、レポートなどの文書分析。&lt;/li&gt;
&lt;li&gt;データベース問い合わせアシスタント。&lt;/li&gt;
&lt;li&gt;Agentワークフロー自動化。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;これらの共通点は、データが敏感で、呼び出しが安定しており、権限とログを通じて企業ガバナンスに組み込めることだ。&lt;/p&gt;
&lt;h2 id=&#34;最初からフルスペックのproを追わない&#34;&gt;最初からフルスペックのProを追わない
&lt;/h2&gt;&lt;p&gt;DeepSeek V4の一般的なバージョンにはProとFlashがある。公開資料では、Proはより強い推論や複雑なAgentタスク向け、Flashはコストと応答速度を重視するものとされている。企業が選定するとき、すべての業務をProに載せる前提にすべきではない。&lt;/p&gt;
&lt;p&gt;タスクの複雑度に応じて分けるとよい。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;簡単なQ&amp;amp;A、要約、分類、タグ生成：Flashまたはより小さいモデルを優先する。&lt;/li&gt;
&lt;li&gt;社内ナレッジベースの検索拡張：Flashで多くの場面をカバーできる。むしろRAG、権限、検索品質が重要だ。&lt;/li&gt;
&lt;li&gt;コードAgent、複雑な推論、長文コンテキスト分析：その段階でProを評価する。&lt;/li&gt;
&lt;li&gt;高価値・低頻度タスク：Proを使ってよいが、高い同時実行数が必要とは限らない。&lt;/li&gt;
&lt;li&gt;一般的なオフィスアシスタント：最も高価な推論リソースを長時間占有する必要はない。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;MoEモデルの利点は、各推論で一部のパラメータだけをアクティブにすることだ。しかし、それはハードウェア負荷が小さいことを意味しない。重みの保存、エキスパート並列、ネットワーク通信、コンテキストキャッシュ、同時実行スケジューリングは依然として重い。特に1M token級の長文コンテキストでは、単一の回答よりも、長いコンテキスト、多人数同時利用、継続セッションがリソースを消費しやすい。&lt;/p&gt;
&lt;h2 id=&#34;国産チップ路線企業向けプライベートクラウドに向く&#34;&gt;国産チップ路線：企業向けプライベートクラウドに向く
&lt;/h2&gt;&lt;p&gt;企業がすでに国産計算資源プールを持っている場合、または信創、コンプライアンス、サプライチェーン要件がある場合は、Ascend、Cambriconなどの国産チップ路線を優先的に評価できる。&lt;/p&gt;
&lt;p&gt;この路線の利点は次の通りだ。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;国産化とサプライチェーン制御の要件に合いやすい。&lt;/li&gt;
&lt;li&gt;企業データセンター、専用クラウド、政府・企業向けプロジェクトに入りやすい。&lt;/li&gt;
&lt;li&gt;権限、監査、リソース分離、運用を統一しやすい。&lt;/li&gt;
&lt;li&gt;長期的に安定したサービスに向いている。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ただし、国産チップ路線では三つの現実的な問題を見る必要がある。&lt;/p&gt;
&lt;p&gt;第一に、フレームワーク適配だ。モデルが動くかどうかは、チップの計算力だけでは決まらない。推論フレームワーク、演算子、通信ライブラリ、量化形式、MoEエキスパート並列、長文コンテキスト最適化が成熟しているかも重要だ。&lt;/p&gt;
&lt;p&gt;第二に、エンジニアリング経験だ。企業が必要とするのは「起動に成功した」だけではなく、安定したサービスだ。マルチテナント、レート制限、監視、障害復旧、段階的リリース、ログ監査、権限分離をすべて補う必要がある。&lt;/p&gt;
&lt;p&gt;第三に、エコシステム差だ。同じモデルでも、NVIDIA、Ascend、Cambriconなどのプラットフォームでは、性能、精度、量化対応、デプロイツールが完全には一致しない。本番投入前には、名目上の計算力だけでなく、実際の負荷テストが必要だ。&lt;/p&gt;
&lt;p&gt;したがって、国産チップは、予算が明確で、コンプライアンス要件が高く、プラットフォームエンジニアリングに投資できる企業に向いている。最も手軽な路線ではないが、長期ガバナンスには最も合う可能性がある。&lt;/p&gt;
&lt;h2 id=&#34;コンシューマーgpuクラスター試験導入と中小チームに向く&#34;&gt;コンシューマーGPUクラスター：試験導入と中小チームに向く
&lt;/h2&gt;&lt;p&gt;まず業務価値を検証したいなら、コンシューマーGPUクラスターの方が始めやすい。RTX 4090、RTX 5090、RTX 3090、RTX 3060 12GBなどのGPUは、コミュニティツール、量化モデル、ローカル推論フレームワークの情報が多く、試行錯誤のコストが低い。&lt;/p&gt;
&lt;p&gt;コンシューマーGPU路線が向くのは次のような場面だ。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;研究開発チームの社内試験導入。&lt;/li&gt;
&lt;li&gt;中小企業のナレッジベースQ&amp;amp;A。&lt;/li&gt;
&lt;li&gt;低同時実行のコードアシスタント。&lt;/li&gt;
&lt;li&gt;オフライン文書処理。&lt;/li&gt;
&lt;li&gt;SLA要求が高くない社内ツール。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ただし、制約も明確だ。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;VRAMが小さく、完全な大規模モデルを直接載せにくい。&lt;/li&gt;
&lt;li&gt;マルチGPU通信が弱く、複数マシン間通信はさらに面倒になる。&lt;/li&gt;
&lt;li&gt;コンシューマー向けハードウェアは、長期フルロード時の安定性がサーバー方案に劣る。&lt;/li&gt;
&lt;li&gt;ケース、電源、冷却、ドライバ、運用が隠れたコストになる。&lt;/li&gt;
&lt;li&gt;最初から企業級の高可用性を約束する用途には向かない。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;より現実的なのは、まずコンシューマーGPUでFlash、蒸留版、量化版、小規模モデルを動かし、業務フローを通すことだ。その後、呼び出し量、効果、データガバナンスを検証してから、サーバーGPUや国産計算基盤へ移行するかを決める。&lt;/p&gt;
&lt;h2 id=&#34;想定されるデプロイ構成&#34;&gt;想定されるデプロイ構成
&lt;/h2&gt;&lt;p&gt;比較的安定した企業向け私有化構成は、六つの層に分けられる。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;モデル層：DeepSeek V4 Pro、V4 Flash、またはタスクに応じて選ぶ小さな蒸留モデル。&lt;/li&gt;
&lt;li&gt;推論層：SGLang、vLLM、llama.cpp、ベンダーNPU推論スタック、または企業の自社サービス。&lt;/li&gt;
&lt;li&gt;ゲートウェイ層：統一認証、レート制限、監査、モデルルーティング、呼び出しログ。&lt;/li&gt;
&lt;li&gt;ナレッジ層：ベクトルDB、全文検索、文書解析、権限フィルタリング、RAG。&lt;/li&gt;
&lt;li&gt;アプリケーション層：カスタマーサポート、コードアシスタント、文書分析、レポートQ&amp;amp;A、Agentワークフロー。&lt;/li&gt;
&lt;li&gt;運用層：監視、アラート、コスト集計、段階的リリース、ロールバック、セキュリティ監査。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;ここで最も過小評価されやすいのは、ゲートウェイ層とナレッジ層だ。多くのプロジェクトが失敗するのは、モデルがまったく使えないからではなく、権限、検索、ログ、コンテキスト管理、プロンプトテンプレート、業務フローが整っていないからだ。&lt;/p&gt;
&lt;p&gt;企業内でLLMをデプロイするときは、モデルを孤立したチャットページではなく、基礎能力として扱うべきだ。本当の価値は、モデルがフローに入り、企業自身のデータとタスクを安定して処理できるようになったときに生まれる。&lt;/p&gt;
&lt;h2 id=&#34;ハードウェア選定の考え方&#34;&gt;ハードウェア選定の考え方
&lt;/h2&gt;&lt;p&gt;ハードウェアは「動くか」だけでなく、「安定してサービス提供できるか」も見る必要がある。&lt;/p&gt;
&lt;p&gt;段階ごとに選ぶとよい。&lt;/p&gt;
&lt;h3 id=&#34;検証段階&#34;&gt;検証段階
&lt;/h3&gt;&lt;p&gt;目的は、その業務に取り組む価値があるかを証明することだ。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;1-4枚のコンシューマーGPUを使う。&lt;/li&gt;
&lt;li&gt;Flash、小モデル、蒸留モデル、量化モデルを優先する。&lt;/li&gt;
&lt;li&gt;同時実行要求は低くし、タスク完了率を見る。&lt;/li&gt;
&lt;li&gt;高可用性は約束しない。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;この段階で大規模ハードウェアを早く買いすぎない。まず従業員が本当に使うか、業務が本当に時間を節約できるか、回答がフローに入るかを確認する。&lt;/p&gt;
&lt;h3 id=&#34;試点段階&#34;&gt;試点段階
&lt;/h3&gt;&lt;p&gt;目的は、一つの部門または一つの業務ラインで安定して使うことだ。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;4-16枚のGPU、または国産NPUノード一式を使う。&lt;/li&gt;
&lt;li&gt;統一ゲートウェイ、ログ、権限制御を追加する。&lt;/li&gt;
&lt;li&gt;RAG、文書解析、モデルルーティング、キャッシュを作る。&lt;/li&gt;
&lt;li&gt;token、同時実行、遅延、失敗率を記録し始める。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;この段階では運用が重要になる。モデル効果は一部にすぎず、安定性、コスト、データガバナンスも同じくらい重要だ。&lt;/p&gt;
&lt;h3 id=&#34;本番段階&#34;&gt;本番段階
&lt;/h3&gt;&lt;p&gt;目的は企業級サービスに入ることだ。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;サーバーGPU、国産計算クラスター、またはプライベートクラウド資源プールを使う。&lt;/li&gt;
&lt;li&gt;複数レプリカ、レート制限、フェイルオーバー、容量計画を整える。&lt;/li&gt;
&lt;li&gt;タスクごとにモデルをルーティングする。簡単なタスクは軽量モデル、複雑なタスクはProに送る。&lt;/li&gt;
&lt;li&gt;企業IDシステム、監査システム、セキュリティポリシーと接続する。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;本番段階では、すべてのリクエストを最強モデルに送るべきではない。適切なモデルルーティングは、ハードウェアを積み増すよりもコストを抑えやすい。&lt;/p&gt;
&lt;h2 id=&#34;推論フレームワークの選び方&#34;&gt;推論フレームワークの選び方
&lt;/h2&gt;&lt;p&gt;DeepSeek V4のようなモデルは、推論フレームワークへの要求が高い。特にMoE、長文コンテキスト、スパースアテンション、量化、マルチGPU並列が関わる場合、フレームワークの成熟度が速度と安定性に直結する。&lt;/p&gt;
&lt;p&gt;一般的な選択肢は次のように理解できる。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;SGLang&lt;/code&gt;：高性能推論、Agent、多ターンのツール呼び出し、複雑なサービス編成を重視するチームに向く。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;vLLM&lt;/code&gt;：エコシステムが成熟しており、汎用LLMサービスに向く。ただし具体的な対応はバージョンとモデル適配の進捗を見る必要がある。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;llama.cpp&lt;/code&gt;：小モデル、量化モデル、エッジデプロイに向く。フルスペックの超大規模MoEを直接載せる用途には向かない。&lt;/li&gt;
&lt;li&gt;国産NPU推論スタック：信創や国産計算環境に向くが、演算子、量化、長文コンテキスト対応を重点的に検証する必要がある。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;フレームワーク選びではbenchmarkだけを見ない。企業は自社の実データで試すべきだ。社内文書の長さ、同時実行数、平均出力長、RAG命中率、Agentのツール呼び出し回数、失敗時のリトライ回数を見る必要がある。&lt;/p&gt;
&lt;h2 id=&#34;データ安全性はモデルの外側で作る&#34;&gt;データ安全性はモデルの外側で作る
&lt;/h2&gt;&lt;p&gt;私有化デプロイは自動的に安全になるわけではない。モデルをローカルで動かすことは、「データが企業の外へ出るか」という問題の一部を解決するだけだ。&lt;/p&gt;
&lt;p&gt;さらに次を補う必要がある。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;アカウントと権限：部門ごとに自分のナレッジベースだけを参照できるようにする。&lt;/li&gt;
&lt;li&gt;ログ監査：誰が何を聞き、どのモデルを呼び、どの文書にアクセスしたかを記録する。&lt;/li&gt;
&lt;li&gt;データマスキング：顧客情報、身分証番号、電話番号、契約金額などの機微情報を処理する。&lt;/li&gt;
&lt;li&gt;プロンプト安全性：ユーザーがプロンプトで権限を回避したり、システムプロンプトを漏らしたりしないようにする。&lt;/li&gt;
&lt;li&gt;出力レビュー：重要な場面では人手レビューまたはルールレビューを入れる。&lt;/li&gt;
&lt;li&gt;データライフサイクル：アップロード文書、ベクトルインデックス、キャッシュ、会話記録を削除できるようにする。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;企業がローカルLLMを作るとき、アルゴリズムチームだけに任せてはいけない。セキュリティ、法務、運用、業務責任者も参加する必要がある。そうしないと、リリース後にリスクが一気に露出する。&lt;/p&gt;
&lt;h2 id=&#34;コストはgpuだけではない&#34;&gt;コストはGPUだけではない
&lt;/h2&gt;&lt;p&gt;ローカルデプロイのコストは過小評価されがちだ。GPUやNPU以外にも、次のものを計算に入れる必要がある。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;サーバー、ラック、電源、冷却、ネットワーク。&lt;/li&gt;
&lt;li&gt;ストレージとバックアップ。&lt;/li&gt;
&lt;li&gt;推論フレームワーク適配とエンジニアリング開発。&lt;/li&gt;
&lt;li&gt;運用監視と障害対応。&lt;/li&gt;
&lt;li&gt;モデルアップグレード、ロールバック、互換性テスト。&lt;/li&gt;
&lt;li&gt;セキュリティ監査と権限システム。&lt;/li&gt;
&lt;li&gt;業務側のプロンプト、RAG、ワークフロー構築。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;呼び出し量が少ないなら、外部APIの方が安い可能性がある。呼び出し量が多く、データが敏感で、フローが安定している場合に、ローカルデプロイはコストを薄めやすい。&lt;/p&gt;
&lt;p&gt;比較的合理的なのはハイブリッド構成だ。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;高機密データはローカルモデルへ送る。&lt;/li&gt;
&lt;li&gt;低機密の汎用タスクは外部APIを使ってもよい。&lt;/li&gt;
&lt;li&gt;簡単なタスクは小モデルへ送る。&lt;/li&gt;
&lt;li&gt;複雑なタスクはDeepSeek V4 Proへ送る。&lt;/li&gt;
&lt;li&gt;高頻度タスクでは、キャッシュ、検索、モデルルーティングを優先して最適化する。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;推奨される導入手順&#34;&gt;推奨される導入手順
&lt;/h2&gt;&lt;p&gt;企業は次の順序で進めるとよい。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;まず高価値な場面を2-3個選び、全社展開しない。&lt;/li&gt;
&lt;li&gt;コンシューマーGPUまたは小規模計算資源でPoCを行う。&lt;/li&gt;
&lt;li&gt;まずFlash、蒸留モデル、量化モデルを動かし、RAGと権限をつなぐ。&lt;/li&gt;
&lt;li&gt;複雑なタスクにProを導入して比較テストする。&lt;/li&gt;
&lt;li&gt;実際の呼び出し量、遅延、失敗率、人手削減時間を記録する。&lt;/li&gt;
&lt;li&gt;その後、国産チップクラスターまたはサーバーGPUを調達するか決める。&lt;/li&gt;
&lt;li&gt;本番前にゲートウェイ、監査、監視、レート制限、ロールバックを補う。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;この手順は、最初から大規模クラスターを買うより安定している。企業にとって最も怖いのは、モデルが弱いことではなく、多くの費用を使った後で、業務フローがモデル能力を受け止められないと分かることだ。&lt;/p&gt;
&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;p&gt;DeepSeek V4は、企業のローカル私有化デプロイに大きな想像余地を与えた。しかし、それは単なる「ローカル版ChatGPT」ではない。本当の難点はエンジニアリングにある。ハードウェア、フレームワーク、モデルルーティング、権限、RAG、監査、監視、コスト制御をまとめて考える必要がある。&lt;/p&gt;
&lt;p&gt;国産チップ路線は、コンプライアンス要求が高く、長期的にプライベートクラウドを構築する企業に向く。コンシューマーGPUクラスターは、試験導入や中小チームの迅速な検証に向く。Proは複雑な推論とAgentに向き、Flashや小モデルは大量の一般タスクに向く。&lt;/p&gt;
&lt;p&gt;一文だけ覚えるなら、DeepSeek V4の私有化デプロイはハードウェア調達から始めるべきではない。業務シーン、データ境界、呼び出し規模から始めるべきだ。まずシーンを通し、その後で大モデルを使うか、どれくらいの規模にするか、どの計算基盤に載せるかを決める。&lt;/p&gt;
&lt;h2 id=&#34;参考資料&#34;&gt;参考資料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://apnews.com/article/deepseek-ai-china-gpt-v4-d2ed33f2521917193616e061674d5f92&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;AP News: DeepSeek launches an update of its AI model&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/blog/deepseekv4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hugging Face Blog: DeepSeek-V4&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.lmsys.org/blog/2026-04-25-deepseek-v4/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;LMSYS Blog: DeepSeek-V4 on Day 0&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>RTX 3060 で動かしやすいローカル LLM モデルおすすめ</title>
        <link>https://knightli.com/ja/2026/05/08/rtx-3060-local-llm-models/</link>
        <pubDate>Fri, 08 May 2026 09:25:24 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/05/08/rtx-3060-local-llm-models/</guid>
        <description>&lt;p&gt;RTX 3060 で最もよく見かけるのは 12GB VRAM 版だ。最上位の AI GPU ではないが、ローカル LLM を動かすにはかなり実用的で、特に 7B、8B、9B、12B クラスのモデルに向いている。&lt;/p&gt;
&lt;p&gt;すぐ選びたいなら、まず次の一文を覚えておくとよい。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;RTX 3060 12GB では、8B 前後のモデルを Q4_K_M または Q5_K_M 量子化で選ぶ。安定重視なら Q4、品質を少し上げたいなら Q5 を試す。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;最初から 32B や 70B を追う必要はない。低ビット量子化や CPU offload で動かせる場合もあるが、速度と体験は日常利用向きではないことが多い。&lt;/p&gt;
&lt;h2 id=&#34;まず-vram-の上限を見る&#34;&gt;まず VRAM の上限を見る
&lt;/h2&gt;&lt;p&gt;RTX 3060 12GB でローカル LLM を動かすとき、本当の制約は VRAM だ。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;モデル規模&lt;/th&gt;
          &lt;th&gt;推奨量子化&lt;/th&gt;
          &lt;th&gt;3060 12GB の体験&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;3B / 4B&lt;/td&gt;
          &lt;td&gt;Q4、Q5、Q8&lt;/td&gt;
          &lt;td&gt;とても軽く、速い&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;7B / 8B / 9B&lt;/td&gt;
          &lt;td&gt;Q4_K_M、Q5_K_M&lt;/td&gt;
          &lt;td&gt;最もおすすめ。品質と速度のバランスがよい&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;12B / 14B&lt;/td&gt;
          &lt;td&gt;Q4_K_M&lt;/td&gt;
          &lt;td&gt;試せるが、コンテキストを大きくしすぎない&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;30B 以上&lt;/td&gt;
          &lt;td&gt;Q2 / Q3 または一部 offload&lt;/td&gt;
          &lt;td&gt;試せるが、日常利用には非推奨&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;70B 以上&lt;/td&gt;
          &lt;td&gt;極低量子化または大量の CPU/RAM&lt;/td&gt;
          &lt;td&gt;実験に近い&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;ローカル LLM はモデルファイルだけが VRAM を使うわけではない。コンテキスト長、KV cache、バッチサイズ、推論フレームワーク、GPU ドライバもリソースを使う。&lt;/p&gt;
&lt;p&gt;そのため、12GB VRAM があるからといって、12GB のモデルファイルをそのまま安全に読み込めるわけではない。システムとコンテキスト用に余裕を残すほうが安定する。&lt;/p&gt;
&lt;h2 id=&#34;おすすめ1qwen3-8b&#34;&gt;おすすめ1：Qwen3 8B
&lt;/h2&gt;&lt;p&gt;主に中国語を使うなら、&lt;code&gt;Qwen3 8B&lt;/code&gt; は RTX 3060 で最初に試す価値が高い。&lt;/p&gt;
&lt;p&gt;向いている用途：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;中国語の質問応答。&lt;/li&gt;
&lt;li&gt;要約とリライト。&lt;/li&gt;
&lt;li&gt;日常的な知識アシスタント。&lt;/li&gt;
&lt;li&gt;簡単なコード解説。&lt;/li&gt;
&lt;li&gt;ローカル RAG。&lt;/li&gt;
&lt;li&gt;軽量 Agent フロー。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;おすすめ：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Qwen3 8B GGUF
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Q4_K_M：最初のおすすめ
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Q5_K_M：品質は上がるが、VRAM負荷も上がる
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Qwen 系列は中国語に強く、日常の文章作成、資料整理、中国語指示の理解が比較的安定している。最初の中国語ローカルモデルに迷うなら、ここから始めるとよい。&lt;/p&gt;
&lt;h2 id=&#34;おすすめ2llama-31-8b-instruct&#34;&gt;おすすめ2：Llama 3.1 8B Instruct
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Llama 3.1 8B Instruct&lt;/code&gt; は安定した汎用モデルで、英語能力とツールエコシステムが成熟している。&lt;/p&gt;
&lt;p&gt;向いている用途：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;英語の質問応答。&lt;/li&gt;
&lt;li&gt;軽量なコード支援。&lt;/li&gt;
&lt;li&gt;一般チャット。&lt;/li&gt;
&lt;li&gt;文書要約。&lt;/li&gt;
&lt;li&gt;プロンプトテスト。&lt;/li&gt;
&lt;li&gt;推論ツールの比較。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;おすすめ：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Llama 3.1 8B Instruct GGUF
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Q4_K_M：速度とVRAMの安定性重視
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Q5_K_M：回答品質重視
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;英語資料を主に扱う場合や、チュートリアルが多く互換性の高いモデルが欲しい場合、Llama 3.1 8B は今もよい基準モデルになる。&lt;/p&gt;
&lt;h2 id=&#34;おすすめ3gemma-3-12b&#34;&gt;おすすめ3：Gemma 3 12B
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Gemma 3 12B&lt;/code&gt; は RTX 3060 12GB の実用上限に近い選択肢だ。&lt;/p&gt;
&lt;p&gt;8B モデルより VRAM を使うが、Q4 量子化なら 3060 12GB でも動かせる可能性がある。単一 GPU でもう少し大きいモデルを試したい人に向いている。&lt;/p&gt;
&lt;p&gt;向いている用途：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;より高品質な一般質問応答。&lt;/li&gt;
&lt;li&gt;英語コンテンツ処理。&lt;/li&gt;
&lt;li&gt;やや複雑な要約と分析。&lt;/li&gt;
&lt;li&gt;8B モデルに物足りなさを感じたときの試行。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;おすすめ：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Gemma 3 12B GGUF
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Q4_K_M または公式 QAT Q4
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;コンテキストを大きくしすぎない
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;VRAM 不足になる場合は、まずコンテキスト長を下げるか、8B モデルに戻す。3060 にとって 12B は「試せる」選択肢であり、常に最初に選ぶモデルではない。&lt;/p&gt;
&lt;h2 id=&#34;おすすめ4deepseek-r1-distill-qwen-8b&#34;&gt;おすすめ4：DeepSeek R1 Distill Qwen 8B
&lt;/h2&gt;&lt;p&gt;ローカルで推論系モデルの雰囲気を試したいなら、&lt;code&gt;DeepSeek R1 Distill Qwen 8B&lt;/code&gt; のような 8B 蒸留モデルが候補になる。&lt;/p&gt;
&lt;p&gt;向いている用途：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;簡単な推論問題。&lt;/li&gt;
&lt;li&gt;段階的な分析。&lt;/li&gt;
&lt;li&gt;推論モデルの出力スタイル学習。&lt;/li&gt;
&lt;li&gt;低コストなローカル実験。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;おすすめ：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;DeepSeek R1 Distill Qwen 8B GGUF
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;この種のモデルは推論過程を長く出力することがあり、普通の指示モデルより速度やコンテキスト使用量が重く感じられる場合がある。日常チャットでは Qwen3 8B のほうが使いやすいこともあるが、推論実験には向いている。&lt;/p&gt;
&lt;h2 id=&#34;おすすめ5phi--minicpm--小型モデル&#34;&gt;おすすめ5：Phi / MiniCPM / 小型モデル
&lt;/h2&gt;&lt;p&gt;RTX 3060 が 8GB 版だったり、PC のメモリが少なかったりする場合は、3B、4B クラスのモデルから試すとよい。&lt;/p&gt;
&lt;p&gt;向いている用途：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;高速な質問応答。&lt;/li&gt;
&lt;li&gt;簡単な要約。&lt;/li&gt;
&lt;li&gt;ローカル小型ツールへの組み込み。&lt;/li&gt;
&lt;li&gt;低遅延チャット。&lt;/li&gt;
&lt;li&gt;古い PC でのテスト。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;これらのモデルは 8B や 12B ほどの品質ではない場合もあるが、軽く、速く、導入しやすい。&lt;/p&gt;
&lt;h2 id=&#34;量子化の選び方&#34;&gt;量子化の選び方
&lt;/h2&gt;&lt;p&gt;ローカルモデルでは &lt;code&gt;GGUF&lt;/code&gt; 形式がよく使われ、Q4、Q5、Q6、Q8 などの量子化がある。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化&lt;/th&gt;
          &lt;th&gt;特徴&lt;/th&gt;
          &lt;th&gt;向いている人&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Q4_K_M&lt;/td&gt;
          &lt;td&gt;小さく速い。品質も十分&lt;/td&gt;
          &lt;td&gt;3060 の第一候補&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Q5_K_M&lt;/td&gt;
          &lt;td&gt;品質が上がるが、使用量も増える&lt;/td&gt;
          &lt;td&gt;8B モデルで試す&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Q6 / Q8&lt;/td&gt;
          &lt;td&gt;元品質に近いが大きい&lt;/td&gt;
          &lt;td&gt;小型モデルや VRAM に余裕があるとき&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Q2 / Q3&lt;/td&gt;
          &lt;td&gt;VRAM を節約するが品質低下が大きい&lt;/td&gt;
          &lt;td&gt;大型モデルの実験&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;RTX 3060 12GB では、実用的には次の選び方になる。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;8B モデル：Q4_K_M または Q5_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;12B モデル：Q4_K_M 優先
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;それ以上：日常主力には非推奨
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;どのツールで動かすか&#34;&gt;どのツールで動かすか
&lt;/h2&gt;&lt;p&gt;初心者は &lt;code&gt;Ollama&lt;/code&gt; から始めるとよい。インストールと実行が簡単だからだ。&lt;/p&gt;
&lt;p&gt;よく使うコマンド例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run qwen3:8b
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run llama3.1:8b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;GGUF ファイル、GPU layers、コンテキスト長を細かく制御したい場合は、&lt;code&gt;llama.cpp&lt;/code&gt; や llama.cpp ベースの GUI ツールを使う。&lt;/p&gt;
&lt;p&gt;主な選択肢：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Ollama&lt;/code&gt;：最も簡単。初心者向け。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;LM Studio&lt;/code&gt;：GUI が使いやすく、モデルのダウンロードと切り替えが簡単。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;llama.cpp&lt;/code&gt;：細かい制御ができ、性能調整向け。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;text-generation-webui&lt;/code&gt;：機能が多く、バックエンド比較向け。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ローカルチャットと簡単な質問応答だけなら、Ollama か LM Studio で十分だ。&lt;/p&gt;
&lt;h2 id=&#34;コンテキストを大きくしすぎない&#34;&gt;コンテキストを大きくしすぎない
&lt;/h2&gt;&lt;p&gt;多くのモデルは長いコンテキスト対応をうたっているが、RTX 3060 では最大値まで上げないほうがよい。&lt;/p&gt;
&lt;p&gt;コンテキストが長いほど KV cache の使用量が増え、VRAM 負荷も高くなる。モデルが読み込めても、長いコンテキストでは生成速度が落ちることがある。&lt;/p&gt;
&lt;p&gt;目安：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;普通のチャット：4K から 8K
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;文書要約：8K から 16K
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;長文書 RAG：まず分割し、全文を一度に詰め込まない
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;3060 は「中程度のコンテキスト + 良いモデル + 良い検索」に向いており、数十万 token を一度に入れる用途には向かない。&lt;/p&gt;
&lt;h2 id=&#34;用途別の選び方&#34;&gt;用途別の選び方
&lt;/h2&gt;&lt;p&gt;主に中国語を書く場合：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;優先：Qwen3 8B Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;候補：DeepSeek R1 Distill Qwen 8B
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;主に英語を書く場合：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;優先：Llama 3.1 8B Instruct Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;候補：Gemma 3 12B Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;速度重視の場合：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;3B / 4B モデル
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;8B Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;コンテキストは 4K から 8K
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;品質重視の場合：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;8B Q5_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;12B Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;速度低下は受け入れる
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;コード用途の場合：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;8B コードモデルは解説や小さな修正に使える
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;複雑なエンジニアリング作業はクラウドの強いモデルを使う
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ローカル 3060 モデルは、コード解説、関数補完、小さなスクリプト生成、オフライン支援に向いている。大規模リファクタリング、難しい bug、ファイル横断の Agent タスクでは、Claude Sonnet や GPT-5 レベルを期待しないほうがよい。&lt;/p&gt;
&lt;h2 id=&#34;rtx-3060-ローカル-llm-への現実的な期待&#34;&gt;RTX 3060 ローカル LLM への現実的な期待
&lt;/h2&gt;&lt;p&gt;RTX 3060 12GB は、ローカル LLM を「おもちゃ」から「日常的に使える道具」に近づけるカードだ。ただし、自宅で最上位クラウドモデルを再現するものではない。&lt;/p&gt;
&lt;p&gt;強み：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;コストが低い。&lt;/li&gt;
&lt;li&gt;8GB カードより VRAM に余裕がある。&lt;/li&gt;
&lt;li&gt;8B モデルの体験がよい。&lt;/li&gt;
&lt;li&gt;オフライン利用できる。&lt;/li&gt;
&lt;li&gt;プライバシーに敏感な資料をローカル処理できる。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;制約：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;大型モデルは滑らかに動かしにくい。&lt;/li&gt;
&lt;li&gt;長いコンテキストは VRAM を消費する。&lt;/li&gt;
&lt;li&gt;推論速度は上位 GPU に劣る。&lt;/li&gt;
&lt;li&gt;小型ローカルモデルの複雑推論は限界がある。&lt;/li&gt;
&lt;li&gt;マルチモーダルや Agent ワークフローはさらに重い。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;安定した使い方は、8B モデルを日常ローカル助手にし、12B モデルを品質確認用に試し、複雑な作業はクラウドモデルへ任せることだ。&lt;/p&gt;
&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;p&gt;RTX 3060 12GB でおすすめのローカル LLM は次の通り。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;中国語汎用：&lt;code&gt;Qwen3 8B Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;英語汎用：&lt;code&gt;Llama 3.1 8B Instruct Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;高品質の試行：&lt;code&gt;Gemma 3 12B Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;推論実験：&lt;code&gt;DeepSeek R1 Distill Qwen 8B Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;低 VRAM 高速体験：3B / 4B 小型モデル&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;量子化はまず &lt;code&gt;Q4_K_M&lt;/code&gt; を選び、8B モデルなら &lt;code&gt;Q5_K_M&lt;/code&gt; も試せる。ツールは Ollama または LM Studio から始めるのがよい。&lt;/p&gt;
&lt;p&gt;3060 を大規模モデルサーバーとして扱わないほうがいい。ローカル知識助手、プライバシー文書処理、軽量コード支援、モデル実験用カードとして使うほうが、実際の能力に合っている。&lt;/p&gt;
&lt;h2 id=&#34;参考リンク&#34;&gt;参考リンク
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Qwen3 8B GGUF：&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3-8B-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/Qwen/Qwen3-8B-GGUF&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Llama 3.1 8B GGUF：&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/macandchiz/Llama-3.1-8B-Instruct-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/macandchiz/Llama-3.1-8B-Instruct-GGUF&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Gemma 3 12B GGUF：&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/gemma-3-12b-it-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/unsloth/gemma-3-12b-it-GGUF&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;llama.cpp：&lt;a class=&#34;link&#34; href=&#34;https://github.com/ggml-org/llama.cpp&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/ggml-org/llama.cpp&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Ollama：&lt;a class=&#34;link&#34; href=&#34;https://ollama.com&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://ollama.com&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Hermes &#43; Qwen3.6：ローカル Agent の低コスト構築案</title>
        <link>https://knightli.com/ja/2026/05/04/hermes-qwen36-local-agent/</link>
        <pubDate>Mon, 04 May 2026 06:40:30 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/05/04/hermes-qwen36-local-agent/</guid>
        <description>&lt;p&gt;この記事は、ローカル Agent の構築案を整理したものだ。WSL2 上で &lt;code&gt;llama.cpp&lt;/code&gt; を使って Qwen3.6 GGUF モデルを動かし、Hermes Agent をローカルの OpenAI-compatible API に接続する。これにより、自分の PC 上で長時間動作するローカル AI アシスタントを用意でき、オンラインサービスの Token 消費に縛られにくくなる。&lt;/p&gt;
&lt;p&gt;この構成は、ローカル AI Agent を試したい人、データのプライバシーと長期的な管理性を重視する人に向いている。日常の質問応答、執筆、コード補助、資料整理、簡単な自動化タスクに使える。ただし、モデルが大きいほど VRAM 要件も高くなる。原文の例では Qwen3.6-27B を使っており、24GB VRAM のほうが安定しやすい。VRAM が少ない場合は、小さいモデルや低い量子化版を選ぶ。&lt;/p&gt;
&lt;h2 id=&#34;構成&#34;&gt;構成
&lt;/h2&gt;&lt;p&gt;全体の流れはシンプルだ。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Windows に WSL2 と Ubuntu 24.04 をインストールする。&lt;/li&gt;
&lt;li&gt;WSL2 内に CUDA Toolkit を入れ、&lt;code&gt;llama.cpp&lt;/code&gt; をビルドする。&lt;/li&gt;
&lt;li&gt;Qwen3.6 GGUF モデルをダウンロードする。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;llama-server&lt;/code&gt; でローカルモデルサービスを起動する。&lt;/li&gt;
&lt;li&gt;Hermes Agent をインストールし、&lt;code&gt;http://localhost:8080/v1&lt;/code&gt; に接続する。&lt;/li&gt;
&lt;li&gt;任意で起動スクリプトを書き、WSL2 起動時にモデルサービスを自動起動する。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Hermes は Agent 機能を担当し、Qwen3.6 はローカル LLM 機能を担当する。組み合わせることで、PC をローカルのプライベート AI アシスタントにできる。&lt;/p&gt;
&lt;h2 id=&#34;wsl2-と-ubuntu-のインストール&#34;&gt;WSL2 と Ubuntu のインストール
&lt;/h2&gt;&lt;p&gt;Windows PowerShell を管理者として開き、次を実行する。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-powershell&#34; data-lang=&#34;powershell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;wsl&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;-install&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;wsl&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;-set-default-version&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;2&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;再起動後、Ubuntu 24.04 をインストールする。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-powershell&#34; data-lang=&#34;powershell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;wsl&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;-install&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-d&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;Ubuntu&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;24.04&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;インストール後、Ubuntu がユーザー名とパスワードの設定を求める。Ubuntu に入ったら、まず NVIDIA GPU が WSL2 から見えているか確認する。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;nvidia-smi
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;GPU が認識されない場合は、Windows 側の NVIDIA ドライバを更新する。WSL2 は Windows ドライバを継承するが、CUDA Toolkit は WSL2 内に別途インストールする必要がある。&lt;/p&gt;
&lt;h2 id=&#34;python-と基本ツールのインストール&#34;&gt;Python と基本ツールのインストール
&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;sudo apt update &lt;span class=&#34;o&#34;&gt;&amp;amp;&amp;amp;&lt;/span&gt; sudo apt install -y python3-pip python3-venv
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;続いて、ビルドツール、Git、CMake も必要になる。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;sudo apt install -y cmake build-essential git
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;llamacpp-のビルド&#34;&gt;llama.cpp のビルド
&lt;/h2&gt;&lt;p&gt;まずソースコードを取得する。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/ggerganov/llama.cpp
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; llama.cpp
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;WSL2 内で CUDA が使える状態なら、そのままビルドできる。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cmake -B build -DGGML_CUDA&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;ON -DCMAKE_CUDA_ARCHITECTURES&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;89&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cmake --build build -j&lt;span class=&#34;k&#34;&gt;$(&lt;/span&gt;nproc&lt;span class=&#34;k&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;code&gt;CMAKE_CUDA_ARCHITECTURES=89&lt;/code&gt; は RTX 40 シリーズなど Ada アーキテクチャ向けだ。別の GPU では実際のアーキテクチャに合わせて変更する。&lt;/p&gt;
&lt;p&gt;CUDA Toolkit がないというエラーが出る場合は、先に WSL2 内で CUDA Toolkit をインストールする。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;sudo dpkg -i cuda-keyring_1.1-1_all.deb
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;sudo apt update
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;sudo apt install -y cuda-toolkit-12-8
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;環境変数を設定する。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;PATH&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;/usr/local/cuda-12.8/bin:&lt;span class=&#34;nv&#34;&gt;$PATH&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;LD_LIBRARY_PATH&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;/usr/local/cuda-12.8/lib64:&lt;span class=&#34;nv&#34;&gt;$LD_LIBRARY_PATH&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;echo&lt;/span&gt; &lt;span class=&#34;s1&#34;&gt;&amp;#39;export PATH=/usr/local/cuda-12.8/bin:$PATH&amp;#39;&lt;/span&gt; &amp;gt;&amp;gt; ~/.bashrc
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;echo&lt;/span&gt; &lt;span class=&#34;s1&#34;&gt;&amp;#39;export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH&amp;#39;&lt;/span&gt; &amp;gt;&amp;gt; ~/.bashrc
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;その後、再ビルドする。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; ~/llama.cpp
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;rm -rf build
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cmake -B build -DGGML_CUDA&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;ON -DCMAKE_CUDA_ARCHITECTURES&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;89&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cmake --build build -j&lt;span class=&#34;k&#34;&gt;$(&lt;/span&gt;nproc&lt;span class=&#34;k&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;qwen36-gguf-モデルのダウンロード&#34;&gt;Qwen3.6 GGUF モデルのダウンロード
&lt;/h2&gt;&lt;p&gt;原文の例では、&lt;code&gt;unsloth/Qwen3.6-27B-GGUF&lt;/code&gt; の &lt;code&gt;Qwen3.6-27B-UD-Q4_K_XL.gguf&lt;/code&gt; を使っている。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;hf download unsloth/Qwen3.6-27B-GGUF &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Qwen3.6-27B-UD-Q4_K_XL.gguf &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--local-dir ~/models/
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;このファイルは約 17GB。Hugging Face のダウンロードが遅い場合は、ModelScope などのミラーを使う。VRAM が足りない場合は 27B を無理に使わず、小さいモデルか低い量子化版を選ぶ。&lt;/p&gt;
&lt;h2 id=&#34;ローカルモデルサービスを起動する&#34;&gt;ローカルモデルサービスを起動する
&lt;/h2&gt;&lt;p&gt;自分のモデルファイル名に合わせて &lt;code&gt;llama-server&lt;/code&gt; を起動する。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;~/llama.cpp/build/bin/llama-server &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--n-gpu-layers &lt;span class=&#34;m&#34;&gt;99&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--ctx-size &lt;span class=&#34;m&#34;&gt;32768&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--flash-attn on &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--temp 1.0 &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--top-p 0.95 &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--top-k &lt;span class=&#34;m&#34;&gt;20&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--presence-penalty 1.5 &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--port &lt;span class=&#34;m&#34;&gt;8080&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;起動後、Windows のブラウザで次を開く。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;http://localhost:8080
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Hermes Agent や他の OpenAI-compatible クライアントから呼び出す場合、API アドレスは通常次になる。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;http://localhost:8080/v1
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;thinking-モードの使い分け&#34;&gt;Thinking モードの使い分け
&lt;/h2&gt;&lt;p&gt;Qwen3.6 はデフォルトで Thinking モードが有効になる場合がある。複雑な推論、難しいコード問題、多段階分析には向いているが、速度は遅くなる。&lt;/p&gt;
&lt;p&gt;Thinking モードを無効にしたい場合は、サービスを停止して &lt;code&gt;--chat-template-kwargs&lt;/code&gt; を追加する。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;~/llama.cpp/build/bin/llama-server &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--n-gpu-layers &lt;span class=&#34;m&#34;&gt;99&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--ctx-size &lt;span class=&#34;m&#34;&gt;32768&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--flash-attn on &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--temp 1.0 &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--top-p 0.95 &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--top-k &lt;span class=&#34;m&#34;&gt;20&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--presence-penalty 1.5 &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--chat-template-kwargs &lt;span class=&#34;s1&#34;&gt;&amp;#39;{&amp;#34;enable_thinking&amp;#34;:false}&amp;#39;&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--port &lt;span class=&#34;m&#34;&gt;8080&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Thinking を無効にすると、簡単な Q&amp;amp;A、執筆、コード補完、コード説明は速くなる。一方、複雑なアルゴリズム設計、難しい Debug、アーキテクチャ分析では Thinking を有効にするほうがよい。&lt;/p&gt;
&lt;h2 id=&#34;hermes-agent-のインストール&#34;&gt;Hermes Agent のインストール
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;llama-server&lt;/code&gt; を動かしたまま、新しい WSL2 ターミナルを開いて Hermes Agent をインストールする。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh &lt;span class=&#34;p&#34;&gt;|&lt;/span&gt; bash
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;インストールスクリプトは Python、Node.js、ripgrep、ffmpeg などの依存関係を処理する。モデル endpoint の設定では custom endpoint を選ぶ。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;URL: http://localhost:8080/v1
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;API Key: 12345678
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Model: 自動認識
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ローカルの &lt;code&gt;llama-server&lt;/code&gt; では、API Key は任意のプレースホルダでよい。設定後は Telegram、WeChat、QQ、Discord などのチャットツールと接続し、Hermes Agent からローカルモデルを呼び出してタスクを実行できる。&lt;/p&gt;
&lt;h2 id=&#34;モデルサービスの自動起動&#34;&gt;モデルサービスの自動起動
&lt;/h2&gt;&lt;p&gt;WSL2 ターミナルを開いたときにモデルサービスを自動起動するスクリプトを用意できる。&lt;/p&gt;
&lt;p&gt;スクリプトを作成する。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;19
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cat &amp;gt; ~/start-llm.sh &lt;span class=&#34;s&#34;&gt;&amp;lt;&amp;lt; &amp;#39;EOF&amp;#39;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;#!/bin/bash
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;echo &amp;#34;Starting Qwen3.6-27B llama-server...&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;~/llama.cpp/build/bin/llama-server \
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;--n-gpu-layers 99 \
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;--ctx-size 65536 \
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;--flash-attn on \
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;--temp 1.0 \
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;--top-p 0.95 \
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;--top-k 20 \
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;--presence-penalty 1.5 \
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;--port 8080 \
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;--host 0.0.0.0 &amp;amp;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;echo &amp;#34;llama-server started, PID: $!&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;echo &amp;#34;API: http://localhost:8080/v1&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;echo &amp;#34;Chat UI: http://localhost:8080&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;EOF&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;chmod +x ~/start-llm.sh
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;code&gt;.bashrc&lt;/code&gt; に追記する。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;echo&lt;/span&gt; &lt;span class=&#34;s1&#34;&gt;&amp;#39;# Auto-start llama-server&amp;#39;&lt;/span&gt; &amp;gt;&amp;gt; ~/.bashrc
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;echo&lt;/span&gt; &lt;span class=&#34;s1&#34;&gt;&amp;#39;if ! pgrep -f &amp;#34;llama-server&amp;#34; &amp;gt; /dev/null 2&amp;gt;&amp;amp;1; then&amp;#39;&lt;/span&gt; &amp;gt;&amp;gt; ~/.bashrc
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;echo&lt;/span&gt; &lt;span class=&#34;s1&#34;&gt;&amp;#39;    ~/start-llm.sh&amp;#39;&lt;/span&gt; &amp;gt;&amp;gt; ~/.bashrc
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;echo&lt;/span&gt; &lt;span class=&#34;s1&#34;&gt;&amp;#39;fi&amp;#39;&lt;/span&gt; &amp;gt;&amp;gt; ~/.bashrc
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;これで WSL2 ターミナルを開くたびに、&lt;code&gt;llama-server&lt;/code&gt; が動いていなければ自動起動する。すでに動いている場合はスキップされ、重複起動を避けられる。&lt;/p&gt;
&lt;h2 id=&#34;注意事項&#34;&gt;注意事項
&lt;/h2&gt;&lt;ol&gt;
&lt;li&gt;27B モデルは VRAM 要件が高い。24GB VRAM のほうが安定しやすく、VRAM が少ない場合は小さいモデルにする。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--ctx-size 65536&lt;/code&gt; は VRAM と RAM の負荷を大きく増やす。不安定な場合は &lt;code&gt;32768&lt;/code&gt; かそれ以下に下げる。&lt;/li&gt;
&lt;li&gt;WSL2 内の CUDA Toolkit と Windows 側の GPU ドライバの両方が正常である必要がある。どちらかが問題を起こすと、CUDA のビルドや実行に失敗する。&lt;/li&gt;
&lt;li&gt;Hermes Agent がローカルサービスへ接続する仕組みは OpenAI-compatible API 呼び出しであり、重要なのは &lt;code&gt;http://localhost:8080/v1&lt;/code&gt; が正常に応答すること。&lt;/li&gt;
&lt;li&gt;スマホや他の端末からアクセスする場合は、Windows Firewall、LAN アドレス、セキュリティ分離を追加で扱う。ローカルモデルサービスを直接インターネットへ公開しない。&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;関連リンク&#34;&gt;関連リンク
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;原文：&lt;a class=&#34;link&#34; href=&#34;https://www.freedidi.com/24036.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hermes + Qwen3.6：本地最强 Agent 组合！零成本、无限 Token，太香了！&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;llama.cpp：&lt;a class=&#34;link&#34; href=&#34;https://github.com/ggerganov/llama.cpp&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;ggerganov/llama.cpp&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Hermes Agent：&lt;a class=&#34;link&#34; href=&#34;https://github.com/NousResearch/hermes-agent&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NousResearch/hermes-agent&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Qwen3.6 GGUF 例：&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/Qwen3.6-27B-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/Qwen3.6-27B-GGUF&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>NVIDIA、Nemotron 3 Nano Omni を発表：エージェント向けのオープンな全モーダル推論モデル</title>
        <link>https://knightli.com/ja/2026/05/01/nvidia-nemotron-3-nano-omni-multimodal-agents/</link>
        <pubDate>Fri, 01 May 2026 12:07:15 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/05/01/nvidia-nemotron-3-nano-omni-multimodal-agents/</guid>
        <description>&lt;p&gt;NVIDIA は &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; を発表した。
これはエージェントワークフロー向けに設計された、オープンな全モーダル推論モデルである。
重点は単なるテキスト問答ではなく、言語、視覚、音声を同じ推論フレームワークに入れ、実際の作業フローに近い入力を扱えるようにすることにある。&lt;/p&gt;
&lt;p&gt;位置付けとして、&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; は AI Agent のための基盤モデルに近い。
画面、文書、画像、音声、動画に含まれる情報を理解し、それを実行可能な推論結果へ変換できる。
この能力は、コンピューター操作、文書インテリジェンス、動画理解、音声対話、カスタマーサポート、教育、企業プロセスの自動化に向いている。&lt;/p&gt;
&lt;h2 id=&#34;モデル仕様&#34;&gt;モデル仕様
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; は MoE アーキテクチャを採用している。
NVIDIA が示している主な仕様は次の通り。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;項目&lt;/th&gt;
          &lt;th&gt;情報&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;モデル名&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;アーキテクチャ&lt;/td&gt;
          &lt;td&gt;MoE&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;パラメータ規模&lt;/td&gt;
          &lt;td&gt;30B total / 3B active&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;モダリティ&lt;/td&gt;
          &lt;td&gt;テキスト、画像、音声、動画&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;コンテキスト長&lt;/td&gt;
          &lt;td&gt;256K token&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;ライセンス&lt;/td&gt;
          &lt;td&gt;Apache 2.0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;主なデプロイ方向&lt;/td&gt;
          &lt;td&gt;AI Agent、マルチモーダル推論、企業向けエージェント&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;ここで最も注目したいのは &lt;code&gt;30B-A3B&lt;/code&gt; だ。
これはモデル全体では約 30B パラメータを持つが、各推論では約 3B パラメータだけを有効化するという意味である。
能力と推論コストのあいだで折り合いを付ける設計であり、大きなエキスパート容量を保ちながら、実行時にはその一部だけを使う。&lt;/p&gt;
&lt;p&gt;ただし、MoE の &lt;code&gt;active params&lt;/code&gt; は、VRAM を 3B モデル相当で見積もってよいという意味ではない。
完全にデプロイするには、エキスパート重み、KV cache、視覚/音声エンコーダーモジュール、コンテキスト長、推論フレームワークのオーバーヘッドを考慮する必要がある。&lt;/p&gt;
&lt;h2 id=&#34;解決しようとしているのは単一モーダルの問題ではない&#34;&gt;解決しようとしているのは単一モーダルの問題ではない
&lt;/h2&gt;&lt;p&gt;従来の大規模言語モデルは主にテキストを処理する。
マルチモーダルモデルはそこからさらに画像理解をサポートする。
一方で &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; の狙いはもっと広く、テキスト、画像、音声、動画をまとめて推論に取り込む全モーダル入力を重視している。&lt;/p&gt;
&lt;p&gt;これは Agent にとって重要だ。
実際のエージェントタスクは、「ある文章を受け取って別の文章を生成する」だけではないことが多い。
たとえば次のようなものだ。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;画面上のボタン、表、ウィンドウを見る。&lt;/li&gt;
&lt;li&gt;PDF、スクリーンショット、グラフ、Web ページを読む。&lt;/li&gt;
&lt;li&gt;音声の説明や会議録音を聞く。&lt;/li&gt;
&lt;li&gt;動画内の動作、場面、時系列を理解する。&lt;/li&gt;
&lt;li&gt;それらの情報を統合して次の操作に変換する。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;モデルが単一モーダルしか扱えない場合、Agent は複数の専用モデルを追加でつなぎ合わせる必要がある。
全モーダルモデルの価値は、この接続コストを減らし、同じモデルでより複雑な環境入力を直接処理できる点にある。&lt;/p&gt;
&lt;h2 id=&#34;コンピューター操作と文書インテリジェンス向け&#34;&gt;コンピューター操作と文書インテリジェンス向け
&lt;/h2&gt;&lt;p&gt;NVIDIA は、&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; がコンピューター操作に関連するタスクに使えることを特に挙げている。
この種のタスクでは、モデルがユーザーインターフェースを理解する必要がある。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;画面上にどのようなコントロールがあるか。&lt;/li&gt;
&lt;li&gt;現在のウィンドウがどの状態にあるか。&lt;/li&gt;
&lt;li&gt;次に対象となるボタンやメニューはどれか。&lt;/li&gt;
&lt;li&gt;表、ダイアログ、入力欄の内容が何を意味するか。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;これは、現在の AI Agent が実際に使われる場面で避けて通りにくい能力でもある。
エージェントがオフィスソフト、ブラウザ、企業向け管理画面、開発ツールの操作を支援するなら、API ドキュメントを読むだけではなく、画面を理解できなければならない。&lt;/p&gt;
&lt;p&gt;文書インテリジェンスも同じ発想に近い。
企業資料には、テキスト、表、画像、スキャンページ、グラフが混在していることが多い。
全モーダルモデルはそれらを同じコンテキストに入れて理解できるため、契約書レビュー、レポート分析、請求書処理、ナレッジベースQA、プロセス自動化に向いている。&lt;/p&gt;
&lt;h2 id=&#34;音声と動画が-agent-をより現実の場面に近づける&#34;&gt;音声と動画が Agent をより現実の場面に近づける
&lt;/h2&gt;&lt;p&gt;音声と動画の入力は、Agent の応用範囲を大きく広げる。&lt;/p&gt;
&lt;p&gt;音声の場面には次のようなものがある。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;会議録音の要約。&lt;/li&gt;
&lt;li&gt;カスタマーサポート通話の分析。&lt;/li&gt;
&lt;li&gt;音声指示の理解。&lt;/li&gt;
&lt;li&gt;教育・研修コンテンツの整理。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;動画の場面には次のようなものがある。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;教学動画の理解。&lt;/li&gt;
&lt;li&gt;セキュリティや産業点検。&lt;/li&gt;
&lt;li&gt;画面録画の分析。&lt;/li&gt;
&lt;li&gt;操作フローの振り返り。&lt;/li&gt;
&lt;li&gt;複数ステップのタスクにおける時系列判断。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;これらのタスクを文字起こしだけで処理すると、多くの視覚情報や時系列情報が失われる。
全モーダルモデルなら、音声、画面、テキストの手がかりを直接組み合わせ、Agent により完全な環境認識を与えられる。&lt;/p&gt;
&lt;h2 id=&#34;デプロイとエコシステム&#34;&gt;デプロイとエコシステム
&lt;/h2&gt;&lt;p&gt;NVIDIA は &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; をオープンなエコシステムに置いており、モデルは Apache 2.0 ライセンスを採用している。
これは開発者や企業にとって重要だ。
実験、統合、二次開発のライセンス上のハードルを下げるからである。&lt;/p&gt;
&lt;p&gt;NVIDIA の説明を見ると、このモデルは同社の推論エコシステムとも強く結び付いている。
企業ユーザーが実際にデプロイする際には、通常次のような点が気になる。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;NVIDIA GPU 上で効率よく推論できるか。&lt;/li&gt;
&lt;li&gt;長いコンテキストとマルチモーダル入力をサポートするか。&lt;/li&gt;
&lt;li&gt;既存の Agent フレームワークに接続できるか。&lt;/li&gt;
&lt;li&gt;社内文書、音声・動画、UI スクリーンショットを処理できるか。&lt;/li&gt;
&lt;li&gt;プライベート環境にデプロイできるか。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;NVIDIA はこのモデルのスループット面での優位性を強調しており、同種のオープンな全モーダル推論モデルに対して最大 9 倍に達するとしている。
この数字の実際の価値は、具体的なハードウェア、コンテキスト長、入力モダリティ、推論フレームワークとあわせて見る必要がある。
ただし方向性は明確だ。
NVIDIA はオープンなマルチモーダルモデルと自社の推論インフラを組み合わせ、企業向け Agent の場面へ押し出そうとしている。&lt;/p&gt;
&lt;h2 id=&#34;向いている用途&#34;&gt;向いている用途
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; は、次のようなタスクにより向いている。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;テキスト、画像、音声、動画を同時に理解する必要がある Agent。&lt;/li&gt;
&lt;li&gt;企業内の文書インテリジェンスとナレッジベースQA。&lt;/li&gt;
&lt;li&gt;スクリーンショットや Web インターフェースに基づくコンピューター操作。&lt;/li&gt;
&lt;li&gt;会議、カスタマーサポート、教学コンテンツのマルチモーダル分析。&lt;/li&gt;
&lt;li&gt;動画理解、ワークフローの振り返り、時系列判断。&lt;/li&gt;
&lt;li&gt;オープンライセンスとプライベートデプロイを必要とするチーム。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;すべての一般ユーザーに向いているとは限らない。
ローカルチャット、コード補完、簡単なQAだけなら、単一モーダルの言語モデルのほうが軽く、速く、省リソースである可能性が高い。
&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; の価値は、主に複雑な入力とマルチモーダルな Agent ワークフローにある。&lt;/p&gt;
&lt;h2 id=&#34;ai-agent-にとって何を意味するのか&#34;&gt;AI Agent にとって何を意味するのか
&lt;/h2&gt;&lt;p&gt;AI Agent が本当に仕事の現場に入っていくには、文字を書けるだけでは足りない。
インターフェースを理解し、音声を聞き取り、文書を読み、動画内の変化を把握し、それらを次の行動へ変換する必要がある。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; の意味はそこにある。
単にモデルのパラメータを大きくしたのではなく、Agent が直面する複数種類の入力を一つの推論モデルに統合している。
これにより、開発者はチャットウィンドウ中心のアプリではなく、現実のタスクに向いたエージェントを作りやすくなる。&lt;/p&gt;
&lt;p&gt;この角度から見ると、NVIDIA がこのモデルを発表したポイントは「また一つマルチモーダルモデルが出た」ということだけではない。
オープンモデル、GPU 推論、企業向け Agent、プライベートデプロイを引き続き接続しようとしている点にある。
今後本当に注目すべきなのは、具体的な Agent フレームワーク、企業ワークフロー、ローカルデプロイの中でどのような実力を見せるかだ。&lt;/p&gt;
&lt;p&gt;参考ソース：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://blogs.nvidia.cn/blog/nemotron-3-nano-omni-multimodal-ai-agents/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA 技術ブログ：NVIDIA Nemotron 3 Nano Omni&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Qwen3.6 をローカルで動かす：27B と 35B-A3B の量子化版に必要なVRAM</title>
        <link>https://knightli.com/ja/2026/05/01/qwen3-6-local-vram-quantization-table/</link>
        <pubDate>Fri, 01 May 2026 12:02:00 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/05/01/qwen3-6-local-vram-quantization-table/</guid>
        <description>&lt;p&gt;Qwen3.6 でローカル部署の対象として特に重要な公開重み版は、主に次の2つです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-27B&lt;/code&gt;：27B の dense モデル。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-35B-A3B&lt;/code&gt;：35B total / 3B active の MoE モデル。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;code&gt;Qwen3.6-Plus&lt;/code&gt; や &lt;code&gt;Qwen3.6-Max&lt;/code&gt; のようなオンライン製品名や API モデル名もあります。
ただし、完全な公開重みと安定した量子化ファイルがないモデルは、ローカルVRAM表には向きません。
この記事では、Hugging Face の重みと GGUF 量子化ファイルをもとに部署できるバージョンだけを扱います。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;/05/10&lt;/code&gt; の Gemma 4 表と同じように、まず次の2つを分けて考える必要があります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;GGUF ファイルサイズ&lt;/strong&gt;：モデル重みファイルそのものの大きさ。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;実際のVRAM使用量&lt;/strong&gt;：重み、KV cache、コンテキスト長、ランタイムバックエンド、マルチモーダルモジュール、バッチサイズで決まる。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Qwen3.6 は標準のコンテキストが非常に長く、公式モデルカードでは &lt;code&gt;262,144&lt;/code&gt; tokens をネイティブでサポートし、&lt;code&gt;1,010,000&lt;/code&gt; tokens まで拡張可能とされています。
そのため、表の「最低VRAM」は短い、または中程度のコンテキストを前提にした目安です。
128K、256K、またはそれ以上のコンテキストを本当に使う場合は、KV cache 用にかなり多くの余裕が必要です。&lt;/p&gt;
&lt;h2 id=&#34;まず結論&#34;&gt;まず結論
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;VRAM&lt;/th&gt;
          &lt;th&gt;比較的向く選択&lt;/th&gt;
          &lt;th&gt;避けたい選択&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;8GB&lt;/td&gt;
          &lt;td&gt;27B / 35B-A3B の 2-bit 極限テスト。品質リスクは高い&lt;/td&gt;
          &lt;td&gt;Q4 以上&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;12GB&lt;/td&gt;
          &lt;td&gt;27B Q2/Q3、35B-A3B Q2/Q3 の短コンテキスト&lt;/td&gt;
          &lt;td&gt;27B Q4 の長コンテキスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;16GB&lt;/td&gt;
          &lt;td&gt;27B Q3/Q4、35B-A3B Q3/IQ4_XS&lt;/td&gt;
          &lt;td&gt;35B-A3B Q4 の長コンテキスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB&lt;/td&gt;
          &lt;td&gt;27B Q4/Q5/Q6、35B-A3B Q4&lt;/td&gt;
          &lt;td&gt;35B-A3B Q8、BF16&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;32GB&lt;/td&gt;
          &lt;td&gt;27B Q8、35B-A3B Q5/Q6&lt;/td&gt;
          &lt;td&gt;BF16&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48GB&lt;/td&gt;
          &lt;td&gt;35B-A3B Q8、27B の長めのコンテキストをより余裕を持って実行&lt;/td&gt;
          &lt;td&gt;35B-A3B BF16&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;80GB+&lt;/td&gt;
          &lt;td&gt;27B / 35B-A3B BF16&lt;/td&gt;
          &lt;td&gt;通常のローカルチャットで BF16 を追う必要はない&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;24GB GPU なら、重点的に見るべきなのは次の3つです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-27B Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-27B Q5_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-35B-A3B UD-Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;16GB VRAM しかない場合は、低ビット幅版から始め、いきなり超長コンテキストを使わないほうが安全です。&lt;/p&gt;
&lt;h2 id=&#34;公式重みサイズ&#34;&gt;公式重みサイズ
&lt;/h2&gt;&lt;p&gt;以下は、公式 Hugging Face リポジトリの &lt;code&gt;model.safetensors.index.json&lt;/code&gt; から確認できる BF16 重みサイズです。
元のモデル規模を見るための参考になります。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;モデル&lt;/th&gt;
          &lt;th&gt;アーキテクチャ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;公式 BF16 重みサイズ&lt;/th&gt;
          &lt;th&gt;公式コンテキスト&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Qwen3.6-27B&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;27B dense&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;55.56GB&lt;/td&gt;
          &lt;td&gt;ネイティブ 262K、1,010K まで拡張可能&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Qwen3.6-35B-A3B&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;35B total / 3B active MoE&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;71.90GB&lt;/td&gt;
          &lt;td&gt;ネイティブ 262K、1,010K まで拡張可能&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;code&gt;35B-A3B&lt;/code&gt; は各ステップで約 3B パラメータだけを有効化しますが、完全な MoE 重みを読み込む必要があります。
そのため、3B 小型モデルのようにVRAMを見積もることはできません。&lt;/p&gt;
&lt;h2 id=&#34;qwen36-27b-vram表&#34;&gt;Qwen3.6-27B VRAM表
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Qwen3.6-27B&lt;/code&gt; は dense モデルで、安定した挙動が強みです。一方で推論コストは従来の 27B モデルに近くなります。
ローカル部署の観点では、35B-A3B より計算量は重いものの、VRAM要件は見積もりやすいです。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化版&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GGUF ファイルサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_XXS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;9.39GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;極限低VRAMテスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10.85GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;低VRAMでの可用性優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q2_K_XL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;11.85GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18GB&lt;/td&gt;
          &lt;td&gt;低ビット幅の折衷案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ3_XXS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;11.99GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18GB&lt;/td&gt;
          &lt;td&gt;VRAMを抑えた 3-bit&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3_K_S&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12.36GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td&gt;3-bit 入門&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;13.59GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td&gt;3-bit の一般的な折衷案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;IQ4_XS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;15.44GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;Q4 に近い省VRAM選択&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;IQ4_NL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16.07GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16.82GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;27B の標準的なおすすめ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;19.51GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;より高品質な量子化&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6_K&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;22.52GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;28GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;品質優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;28.60GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td&gt;原精度に近い実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;BF16&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;53.80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td&gt;研究、評価、精度比較&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;普通のローカルコーディングやチャットなら、&lt;code&gt;Q4_K_M&lt;/code&gt; が最もおすすめしやすい出発点です。
24GB GPU なら &lt;code&gt;Q4_K_M&lt;/code&gt; は比較的快適に動かせますが、長いコンテキストを使う場合は量子化サイズかコンテキスト長を下げるほうが安全です。&lt;/p&gt;
&lt;h2 id=&#34;qwen36-35b-a3b-vram表&#34;&gt;Qwen3.6-35B-A3B VRAM表
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Qwen3.6-35B-A3B&lt;/code&gt; は MoE モデルで、35B total、各ステップで約 3B パラメータを有効化します。
速度と能力のバランスがよく、特にローカル Agent、ツール呼び出し、コード作業に向いています。&lt;/p&gt;
&lt;p&gt;ただし、MoE の &lt;code&gt;3B active&lt;/code&gt; は主に計算量に効くものであり、VRAMが 3B モデル相当で済むという意味ではありません。
完全に動かすには専門家重みを読み込む必要があります。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化版&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GGUF ファイルサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_XXS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10.76GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;極限低VRAMテスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;11.52GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;低VRAMでの可用性優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q2_K_XL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12.29GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18GB&lt;/td&gt;
          &lt;td&gt;低ビット幅の折衷案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ3_XXS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;13.21GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td&gt;VRAMを抑えた 3-bit&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q3_K_S&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;15.36GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;3-bit 入門&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q3_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16.60GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;3-bit の一般的な折衷案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ4_XS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;17.73GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ4_NL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18.04GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;Q4 に近いおすすめ選択&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q4_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;22.13GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;35B-A3B の標準的なおすすめ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q5_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;26.46GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td&gt;より高品質な量子化&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q6_K&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;29.31GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td&gt;品質優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;36.90GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td&gt;原精度に近い実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;BF16&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;69.37GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td&gt;研究、評価、精度比較&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;24GB VRAM なら &lt;code&gt;UD-Q4_K_M&lt;/code&gt; が有力ですが、コンテキストは上げすぎないほうがよいです。
128K 以上のコンテキストに余裕を残したい場合、&lt;code&gt;UD-IQ4_XS&lt;/code&gt;、&lt;code&gt;UD-IQ4_NL&lt;/code&gt;、または 3-bit 版のほうが現実的です。&lt;/p&gt;
&lt;h2 id=&#34;27b-と-35b-a3b-の選び方&#34;&gt;27B と 35B-A3B の選び方
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;目的&lt;/th&gt;
          &lt;th&gt;よりおすすめ&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;dense モデルの安定性&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;Qwen3.6-27B&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;速い応答、Agent、ツール呼び出し&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;Qwen3.6-35B-A3B&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB VRAM での日常ローカル利用&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;35B-A3B UD-Q4_K_M&lt;/code&gt; または &lt;code&gt;27B Q4_K_M&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;16GB VRAM での試用&lt;/td&gt;
          &lt;td&gt;どちらも 2-bit/3-bit。長コンテキストは避ける&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;長コンテキスト優先&lt;/td&gt;
          &lt;td&gt;低ビット量子化にして KV cache の余裕を残す&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;32GB+ VRAM で品質優先&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;27B Q5/Q6&lt;/code&gt; または &lt;code&gt;35B-A3B Q5/Q6&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;コードを書いたり、Agent を動かしたり、ツール呼び出しを使うなら、&lt;code&gt;35B-A3B&lt;/code&gt; を先に試す価値があります。
dense モデルの安定性や一貫性を重視するなら、&lt;code&gt;27B&lt;/code&gt; のほうがわかりやすい選択です。&lt;/p&gt;
&lt;h2 id=&#34;長コンテキストが大量のvramを使う理由&#34;&gt;長コンテキストが大量のVRAMを使う理由
&lt;/h2&gt;&lt;p&gt;Qwen3.6 のモデルカードでは、複雑なタスクで長めのコンテキストを保つことが推奨されており、128K 以上のコンテキストが思考能力に役立つとも述べられています。
しかしローカル部署では、長コンテキストは大きな &lt;code&gt;KV cache&lt;/code&gt; を意味します。&lt;/p&gt;
&lt;p&gt;実際のVRAM使用量に影響する要素は次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;KV cache&lt;/code&gt;：コンテキストが長いほど使用量が増える。&lt;/li&gt;
&lt;li&gt;視覚入力を有効にするかどうか：Qwen3.6 は視覚エンコーダを持つため、マルチモーダル利用では追加コストがある。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--language-model-only&lt;/code&gt; を使うかどうか：vLLM などでは、視覚部分をスキップすると KV cache 用のメモリを一部空けられる。&lt;/li&gt;
&lt;li&gt;バッチサイズと並列性：並列性が高いほどVRAM要求も高くなる。&lt;/li&gt;
&lt;li&gt;KV cache 量子化：&lt;code&gt;q8_0&lt;/code&gt;、&lt;code&gt;q4_0&lt;/code&gt; などはVRAMを節約できるが、細部に影響する場合がある。&lt;/li&gt;
&lt;li&gt;ランタイム差：llama.cpp、vLLM、SGLang、KTransformers、LM Studio の使用量は完全には同じではない。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;そのため、GGUF ファイルサイズだけを見てはいけません。
ファイルがすでにVRAM上限に近い場合、モデルは読み込めても、長い出力や長コンテキスト生成で OOM になる可能性があります。&lt;/p&gt;
&lt;h2 id=&#34;どう選ぶか&#34;&gt;どう選ぶか
&lt;/h2&gt;&lt;p&gt;ローカルで Qwen3.6 を試したいだけなら：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;12GB VRAM：&lt;code&gt;27B UD-IQ2_M&lt;/code&gt; または &lt;code&gt;35B-A3B UD-IQ2_M&lt;/code&gt;。コンテキストは短くする。&lt;/li&gt;
&lt;li&gt;16GB VRAM：&lt;code&gt;27B Q3_K_M&lt;/code&gt; または &lt;code&gt;35B-A3B UD-IQ3_XXS&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;24GB VRAM：&lt;code&gt;27B Q4_K_M&lt;/code&gt;、&lt;code&gt;35B-A3B UD-IQ4_NL&lt;/code&gt;、&lt;code&gt;35B-A3B UD-Q4_K_M&lt;/code&gt; を優先。&lt;/li&gt;
&lt;li&gt;32GB VRAM：&lt;code&gt;27B Q5/Q6&lt;/code&gt; または &lt;code&gt;35B-A3B Q5/Q6&lt;/code&gt; を検討。&lt;/li&gt;
&lt;li&gt;48GB 以上：&lt;code&gt;Q8_0&lt;/code&gt; を試すか、長コンテキスト用に余裕を残す。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;多くのユーザーに BF16 は不要です。
Qwen3.6 のローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、コンテキスト長、速度、出力品質のバランスです。&lt;/p&gt;
&lt;h2 id=&#34;参考元&#34;&gt;参考元
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3.6-27B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen/Qwen3.6-27B - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3.6-35B-A3B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen/Qwen3.6-35B-A3B - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3.6-27B-FP8&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen/Qwen3.6-27B-FP8 - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen/Qwen3.6-35B-A3B-FP8 - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/Qwen3.6-27B-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/Qwen3.6-27B-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/Qwen3.6-35B-A3B-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>DeepSeek V4 をローカルで動かす：Pro、Flash、Base 版のVRAM使用量見積もり</title>
        <link>https://knightli.com/ja/2026/05/01/deepseek-v4-local-vram-quantization-table/</link>
        <pubDate>Fri, 01 May 2026 11:55:25 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/05/01/deepseek-v4-local-vram-quantization-table/</guid>
        <description>&lt;p&gt;DeepSeek V4 と Gemma 4 は、ローカル実行の難度がまったく違います。
Gemma 4 の 26B や 31B なら、24GB や 32GB のGPUでどの量子化版を選ぶかをまだ議論できます。DeepSeek V4 は巨大な MoE モデルであり、完全なローカル実行では多GPUワークステーションやサーバー級のVRAMが必要になります。&lt;/p&gt;
&lt;p&gt;公式の DeepSeek V4 Preview には、主に2つの推論モデルがあります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;：&lt;code&gt;1.6T total / 49B active params&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;：&lt;code&gt;284B total / 13B active params&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Hugging Face の公式 collection には、さらに2つの Base モデルも含まれています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;この記事では、&lt;strong&gt;モデル重みを完全に読み込む&lt;/strong&gt;場合のおおまかなVRAM要件だけを扱います。
MoE の &lt;code&gt;active params&lt;/code&gt; は主に各 token の計算量に効くものであり、その分のパラメータだけを読み込めばよいという意味ではありません。
専門家のオンデマンド読み込み、CPU/NVMe offload、分散推論、専用ランタイム最適化がない場合、VRAMは基本的に完全な重みサイズを基準に見積もる必要があります。&lt;/p&gt;
&lt;h2 id=&#34;まず結論&#34;&gt;まず結論
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;VRAM規模&lt;/th&gt;
          &lt;th&gt;比較的現実的に試せるもの&lt;/th&gt;
          &lt;th&gt;期待しないほうがよいもの&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB&lt;/td&gt;
          &lt;td&gt;DeepSeek V4 の完全実行は不可。小型蒸留モデルまたはAPI向け&lt;/td&gt;
          &lt;td&gt;V4-Flash / V4-Pro の完全ローカル読み込み&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48GB&lt;/td&gt;
          &lt;td&gt;まだ完全読み込みには不向き。小型モデルやリモートAPIクライアント向け&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 の安定実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;80GB&lt;/td&gt;
          &lt;td&gt;理論上 V4-Flash Q2/Q3 や強い offload を試せる&lt;/td&gt;
          &lt;td&gt;V4-Pro&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;128GB&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 が比較的現実的。Q5/Q6 はまだ厳しい&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;192GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8/Q6 は余裕が出る。Pro Q2 は実験範囲&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;256GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8 はかなり安定。Pro Q2/Q3 は実験可能&lt;/td&gt;
          &lt;td&gt;V4-Pro Q5 以上&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;512GB&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4 が議論できる範囲に入る&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;1TB+&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8、Pro-Base の低ビット幅がより現実的&lt;/td&gt;
          &lt;td&gt;低コスト単体マシン運用&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;2TB+&lt;/td&gt;
          &lt;td&gt;Pro-Base FP8 クラス&lt;/td&gt;
          &lt;td&gt;普通のワークステーション運用&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;個人PCでローカル実行することが目的なら、DeepSeek V4 は適切な対象ではありません。
より現実的な選択肢は次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;DeepSeek 公式 API または互換サービスを使う。&lt;/li&gt;
&lt;li&gt;安定したコミュニティ製 GGUF/EXL2/MLX 量子化と推論サポートを待つ。&lt;/li&gt;
&lt;li&gt;より小さな DeepSeek 蒸留モデルを使う。&lt;/li&gt;
&lt;li&gt;Qwen、Gemma、Llama などの 7B〜70B 級ローカルモデルを使う。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;公式重みサイズ&#34;&gt;公式重みサイズ
&lt;/h2&gt;&lt;p&gt;以下は Hugging Face 公式リポジトリの &lt;code&gt;model.safetensors.index.json&lt;/code&gt; から確認できる重み総量です。
これは現在公開されている重みファイルのサイズであり、長いコンテキスト実行時の完全なVRAM使用量ではありません。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;モデル&lt;/th&gt;
          &lt;th&gt;パラメータ規模&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;公式重みサイズ&lt;/th&gt;
          &lt;th&gt;説明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total / 13B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td&gt;推論版。この中では最小&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total / 49B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td&gt;推論版。より強力だが非常に大きい&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td&gt;Base 版。全量 FP8 重みに近いサイズ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td&gt;Base 版。約 1.6TB クラス&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;最小の &lt;code&gt;V4-Flash&lt;/code&gt; でも、公式重みはすでに約 160GB あります。
そのため、&lt;code&gt;13B active params&lt;/code&gt; だからといって 13B 小型モデルのようには扱えません。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-flash-のvram見積もり&#34;&gt;DeepSeek V4 Flash のVRAM見積もり
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Flash&lt;/code&gt; は DeepSeek V4 の中では最もローカル実験に近いモデルです。
ただし、それは Pro と比べた場合の話であり、消費者向け単体GPUモデルではありません。&lt;/p&gt;
&lt;p&gt;以下では、公式の 159.61GB 重みサイズを基準にしています。
Q4/Q3/Q2 はビット幅からの推定であり、安定した公式 GGUF 版が存在することを意味しません。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版 / 量子化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;推定重みサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 公式重み&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;多GPUサーバー、推論サービス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;120GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td&gt;品質優先の量子化実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;100GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;Flash ローカル化の比較的現実的な出発点&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;60GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td&gt;大容量VRAM単体GPUまたは多GPU実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td&gt;極限低ビット実験。品質リスクは大きい&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;将来、成熟した &lt;code&gt;V4-Flash Q4&lt;/code&gt; が出たとしても、24GB GPU向けのモデルにはなりにくいです。
より現実的な出発点は、96GB〜128GB 級の総VRAM、または速度を犠牲にした CPU/offload 構成です。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-pro-のvram見積もり&#34;&gt;DeepSeek V4 Pro のVRAM見積もり
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Pro&lt;/code&gt; は旗艦推論版で、公式重みサイズは約 864.70GB です。
4-bit 量子化をしても、完全な重みは数百GB級のままです。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版 / 量子化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;推定重みサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 公式重み&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB+&lt;/td&gt;
          &lt;td&gt;多ノードまたは多GPU推論サービス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;648GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;高品質な量子化サービス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;540GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td&gt;品質とコストのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;432GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;Pro ローカル化で現実的な最低品質ライン&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;324GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;低ビット実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;216GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;極限実験。品質と安定性のリスクが高い&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;個人ユーザーにとって、&lt;code&gt;V4-Pro&lt;/code&gt; は API 経由で使うほうが現実的です。
完全なローカル実行を目指すなら、4090、5090、RTX PRO 単体GPUではなく、多GPUサーバーモデルとして考えるべきです。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-flash-base-のvram見積もり&#34;&gt;DeepSeek V4 Flash-Base のVRAM見積もり
&lt;/h2&gt;&lt;p&gt;Base 版は通常、研究、微調整、継続学習向けであり、普通のチャット用途の第一候補ではありません。
&lt;code&gt;V4-Flash-Base&lt;/code&gt; の公式重みサイズは約 294.67GB です。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版 / 量子化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;推定重みサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 公式重み&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;研究、前処理、評価&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;221GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;高品質量子化研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;184GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;147GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td&gt;低コストな Base 版実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;111GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;低ビット実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;極限実験&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;DeepSeek V4 の能力を使いたいだけなら、Base 版から始めることはおすすめしません。
Base 版はデプロイと調整のコストが高く、通常のアプリケーションには推論版または API のほうが向いています。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-pro-base-のvram見積もり&#34;&gt;DeepSeek V4 Pro-Base のVRAM見積もり
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Pro-Base&lt;/code&gt; は最も重いバージョンで、公式重みサイズは約 1606.03GB です。
これはすでに 1.6TB クラスのモデルファイルです。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版 / 量子化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;推定重みサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 公式重み&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.4TB+&lt;/td&gt;
          &lt;td&gt;大規模研究クラスタ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1205GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td&gt;高品質量子化研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1004GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td&gt;研究と評価&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;803GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td&gt;低ビット研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;602GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;極限低ビット研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;402GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;極限実験&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;この種のモデルは、「家庭用GPUで動くか」という枠組みで考える対象ではありません。
Q4 であっても、ほとんどの単体ワークステーションの快適な範囲を超えています。&lt;/p&gt;
&lt;h2 id=&#34;active-params-だけを見てはいけない理由&#34;&gt;active params だけを見てはいけない理由
&lt;/h2&gt;&lt;p&gt;DeepSeek V4 は MoE モデルです。
MoE では各 token が一部の専門家だけを有効化するため、計算量は総パラメータ数よりかなり小さくなります。
しかし、それはVRAMに active params だけを載せればよいという意味ではありません。&lt;/p&gt;
&lt;p&gt;完全なローカル推論では、次の要素も考える必要があります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;すべての専門家重みをGPUに常駐させる必要があるか。&lt;/li&gt;
&lt;li&gt;専門家のオンデマンド読み込みに対応しているか。&lt;/li&gt;
&lt;li&gt;CPUメモリとGPU VRAM間のデータ転送コスト。&lt;/li&gt;
&lt;li&gt;NVMe offload の遅延。&lt;/li&gt;
&lt;li&gt;長コンテキストで増える KV cache。&lt;/li&gt;
&lt;li&gt;1M context 実行時の追加ランタイムコスト。&lt;/li&gt;
&lt;li&gt;多ノード・多GPU通信コスト。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;したがって、&lt;code&gt;49B active&lt;/code&gt; の &lt;code&gt;V4-Pro&lt;/code&gt; を 49B モデルとして扱ってはいけません。
&lt;code&gt;13B active&lt;/code&gt; の &lt;code&gt;V4-Flash&lt;/code&gt; も、13B 小型モデルとして扱うべきではありません。&lt;/p&gt;
&lt;h2 id=&#34;どう選ぶか&#34;&gt;どう選ぶか
&lt;/h2&gt;&lt;p&gt;普通の個人ユーザーなら：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;DeepSeek V4 を完全にローカル実行することはおすすめしません。&lt;/li&gt;
&lt;li&gt;DeepSeek V4 の能力が必要なら、まず公式 API を使う。&lt;/li&gt;
&lt;li&gt;ローカル私有化が必要なら、成熟した推論サービス基盤や社内多GPUサーバーがあるかを先に確認する。&lt;/li&gt;
&lt;li&gt;24GB〜48GB VRAM しかない場合は、7B、14B、32B、70B 級の量子化モデルのほうが現実的です。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;128GB〜256GB の総VRAMがある場合：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4-Flash Q4/Q5&lt;/code&gt; の安定したコミュニティ実装を注視する。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;V4-Pro&lt;/code&gt; を主力ローカルモデルとして扱うのはおすすめしません。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;512GB 以上の総VRAMがある場合：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4-Pro Q4&lt;/code&gt; がようやく工学的な検証対象になります。&lt;/li&gt;
&lt;li&gt;それでも推論フレームワーク、専門家スケジューリング、KV cache、スループット、並列性を確認する必要があります。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;DeepSeek V4 のローカル部署で重要なのは、「どの量子化ファイルをダウンロードするか」ではありません。
「このモデルを支えるだけのシステムレベルの推論能力があるか」です。
これはデスクトップモデルというより、サーバーモデルに近い存在です。&lt;/p&gt;
&lt;h2 id=&#34;参考元&#34;&gt;参考元
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek V4 Preview Release - DeepSeek API Docs&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/deepseek-ai/deepseek-v4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek-V4 collection - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Gemma 4 をローカルで動かす：E2B、E4B、26B、31B の量子化版に必要なVRAM</title>
        <link>https://knightli.com/ja/2026/05/01/gemma-4-local-vram-quantization-table/</link>
        <pubDate>Fri, 01 May 2026 11:42:34 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/05/01/gemma-4-local-vram-quantization-table/</guid>
        <description>&lt;p&gt;Gemma 4 には、ローカル実行向けに主に &lt;code&gt;E2B&lt;/code&gt;、&lt;code&gt;E4B&lt;/code&gt;、&lt;code&gt;26B A4B&lt;/code&gt;、&lt;code&gt;31B&lt;/code&gt; の4サイズがあります。
&lt;code&gt;E2B&lt;/code&gt; と &lt;code&gt;E4B&lt;/code&gt; は軽量・エッジデバイス向け、&lt;code&gt;26B A4B&lt;/code&gt; は MoE アーキテクチャ、&lt;code&gt;31B&lt;/code&gt; はより大きな dense モデルです。&lt;/p&gt;
&lt;p&gt;ローカル実行で混同しやすい数字は次の2つです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;GGUF ファイルサイズ&lt;/strong&gt;：モデル重みファイルそのものの大きさ。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;実際のVRAM使用量&lt;/strong&gt;：モデル重み、KV cache、ランタイムのオーバーヘッド、コンテキスト長、マルチモーダル投影ファイルの有無で決まる。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;以下の表は、GGUF ファイルサイズをもとにVRAM要件を見積もったものです。
前提は &lt;code&gt;llama.cpp&lt;/code&gt;、LM Studio、Ollama などで、主にテキスト推論を行い、短〜中程度のコンテキストを使うローカル環境です。
長いコンテキスト、画像/音声入力、並列リクエストを使う場合は、さらにVRAMの余裕が必要です。&lt;/p&gt;
&lt;h2 id=&#34;まず結論&#34;&gt;まず結論
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;VRAM&lt;/th&gt;
          &lt;th&gt;比較的向く選択&lt;/th&gt;
          &lt;th&gt;避けたい選択&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;4GB&lt;/td&gt;
          &lt;td&gt;E2B の低ビット量子化&lt;/td&gt;
          &lt;td&gt;E4B 以上&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;6GB&lt;/td&gt;
          &lt;td&gt;E2B Q4/Q5、E4B の低ビット量子化&lt;/td&gt;
          &lt;td&gt;26B、31B&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;8GB&lt;/td&gt;
          &lt;td&gt;E2B Q8、E4B Q4/Q5&lt;/td&gt;
          &lt;td&gt;26B Q4、31B Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;12GB&lt;/td&gt;
          &lt;td&gt;E4B Q8、26B/31B の 2-bit/3-bit 実験&lt;/td&gt;
          &lt;td&gt;26B Q4 の長コンテキスト、31B Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;16GB&lt;/td&gt;
          &lt;td&gt;26B 低ビット量子化、31B 低ビット量子化&lt;/td&gt;
          &lt;td&gt;31B Q4 の長コンテキスト、26B Q5 以上&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB&lt;/td&gt;
          &lt;td&gt;26B Q4/Q5、31B Q4&lt;/td&gt;
          &lt;td&gt;31B Q8、BF16&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;32GB&lt;/td&gt;
          &lt;td&gt;26B Q6/Q8、31B Q5/Q6&lt;/td&gt;
          &lt;td&gt;BF16&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48GB&lt;/td&gt;
          &lt;td&gt;31B Q8 をより余裕を持って実行、26B Q8 の長めのコンテキスト&lt;/td&gt;
          &lt;td&gt;31B BF16&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;80GB+&lt;/td&gt;
          &lt;td&gt;26B/31B BF16&lt;/td&gt;
          &lt;td&gt;一般的なコンシューマーGPU単体での運用&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;まずローカルで使えるものを動かしたいなら、&lt;code&gt;E4B Q4_K_M&lt;/code&gt; または &lt;code&gt;E2B Q4_K_M&lt;/code&gt; から始めるのが現実的です。
24GB VRAM があれば、&lt;code&gt;26B A4B Q4_K_M&lt;/code&gt; と &lt;code&gt;31B Q4_K_M&lt;/code&gt; がようやく使いやすい範囲に入ります。&lt;/p&gt;
&lt;h2 id=&#34;gemma-4-e2b-vram表&#34;&gt;Gemma 4 E2B VRAM表
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;E2B&lt;/code&gt; は最も軽量なバージョンで、ノートPC、ミニPC、モバイル端末、低VRAM環境でのテストに向いています。
動かしやすい一方で、複雑な推論、コード生成、長いタスクの安定性には限界があります。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化版&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GGUF ファイルサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.29GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td&gt;極限の低VRAMテスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q2_K_XL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.40GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td&gt;低VRAMでの可用性優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.54GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td&gt;軽いチャット、要約&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;IQ4_XS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.98GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;3.11GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td&gt;E2B の標準的なおすすめ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;3.36GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td&gt;Q4 より少し安定&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6_K&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4.50GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10GB&lt;/td&gt;
          &lt;td&gt;小型モデルで品質優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;5.05GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10GB&lt;/td&gt;
          &lt;td&gt;軽量運用で原精度に近づけたい場合&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;BF16&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;9.31GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;デバッグ、比較、研究&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;日常的な体験なら &lt;code&gt;E2B Q4_K_M&lt;/code&gt; で十分です。
4GB VRAM しかない場合は 2-bit や 3-bit も試せますが、出力品質は不安定になりやすくなります。&lt;/p&gt;
&lt;h2 id=&#34;gemma-4-e4b-vram表&#34;&gt;Gemma 4 E4B VRAM表
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;E4B&lt;/code&gt; は、より実用的な軽量版です。
E2B よりも日常的な文章作成、資料要約、軽いコード補助、ローカルアシスタント用途に向いています。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化版&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GGUF ファイルサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;3.53GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td&gt;低VRAMテスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q2_K_XL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;3.74GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td&gt;低VRAMでの可用性優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4.06GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10GB&lt;/td&gt;
          &lt;td&gt;軽量ローカルアシスタント&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;IQ4_XS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4.72GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td&gt;品質と速度のバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4.98GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td&gt;E4B の標準的なおすすめ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;5.48GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td&gt;より安定した日常利用&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6_K&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;7.07GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;品質優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8.19GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;原精度に近い実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;BF16&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;15.05GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;研究、評価、精度比較&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;8GB VRAM のGPUなら、&lt;code&gt;E4B Q4_K_M&lt;/code&gt; が現実的な出発点です。
12GB または 16GB VRAM があるなら、&lt;code&gt;E4B Q8_0&lt;/code&gt; も候補になります。&lt;/p&gt;
&lt;h2 id=&#34;gemma-4-26b-a4b-vram表&#34;&gt;Gemma 4 26B A4B VRAM表
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;26B A4B&lt;/code&gt; は MoE 版で、総パラメータ数は大きいものの、推論時には一部の専門家だけを有効化します。
より複雑なQ&amp;amp;A、コード、ツール呼び出し、Agent ワークフローに向いています。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化版&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GGUF ファイルサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;9.97GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;16GB GPUでの限界テスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q2_K_XL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10.55GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;低VRAMで 26B を動かす&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q3_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12.53GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td&gt;品質を少し上げつつVRAM節約&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ4_XS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;13.42GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q4_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16.87GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;26B の標準的なおすすめ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q5_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;21.15GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;より高品質な量子化&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q6_K&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;23.17GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;28GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;品質優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;26.86GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td&gt;原精度に近い実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;BF16&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;50.51GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td&gt;一般的な単体コンシューマーGPUでは非現実的&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;26B A4B を快適に使う分岐点は 24GB VRAM です。
16GB GPU でも低ビット版は試せますが、コンテキスト長、並列性、マルチモーダル入力は控えめにする必要があります。&lt;/p&gt;
&lt;h2 id=&#34;gemma-4-31b-vram表&#34;&gt;Gemma 4 31B VRAM表
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;31B&lt;/code&gt; はより大きな dense モデルです。
総合能力が高い一方で、VRAM負荷は 26B A4B より直接的に効いてきます。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化版&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GGUF ファイルサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_XXS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8.53GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;極限低VRAMテスト、品質低下は大きい&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10.75GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18GB&lt;/td&gt;
          &lt;td&gt;低VRAMテスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q2_K_XL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;11.77GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td&gt;16GB GPUでの実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3_K_S&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;13.21GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;VRAMを抑えた 3-bit&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14.74GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;3-bit の一般的な折衷案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;IQ4_XS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16.37GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;Q4 に近い折衷案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18.32GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;31B の標準的なおすすめ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;21.66GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;28GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;より高品質な量子化&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6_K&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;25.20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td&gt;品質優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32.64GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td&gt;原精度に近い実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;BF16&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;61.41GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td&gt;サーバーまたは大容量VRAMワークステーション&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;31B の低ビット版は 16GB GPU でも実験できますが、日常利用には 24GB VRAM から始めるのが無難です。
&lt;code&gt;Q4_K_M&lt;/code&gt; はバランスのよい選択で、&lt;code&gt;Q5_K_M&lt;/code&gt; 以上は 32GB 以上のVRAMでより現実的です。&lt;/p&gt;
&lt;h2 id=&#34;実際の使用量がファイルサイズより増える理由&#34;&gt;実際の使用量がファイルサイズより増える理由
&lt;/h2&gt;&lt;p&gt;GGUF ファイルサイズは重みの大きさにすぎません。
実行時には次のような追加コストがあります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;KV cache&lt;/code&gt;：コンテキストが長いほど使用量が増える。&lt;/li&gt;
&lt;li&gt;バッチサイズと並列性：一度に処理する token やユーザー数が増えるとVRAMも増える。&lt;/li&gt;
&lt;li&gt;マルチモーダル部品：画像、音声、動画入力では通常 &lt;code&gt;mmproj&lt;/code&gt; や追加モジュールが必要。&lt;/li&gt;
&lt;li&gt;ランタイムバックエンド：CUDA、Metal、ROCm、CPU/GPU 分割ロードで占用が変わる。&lt;/li&gt;
&lt;li&gt;KV cache 量子化：&lt;code&gt;q8_0&lt;/code&gt;、&lt;code&gt;q4_0&lt;/code&gt; などでVRAMを節約できるが、細部に影響する場合がある。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;そのため、表の「最低VRAM」は「起動して短いコンテキストで動く」目安として見るべきです。
32K、64K、128K、さらに 256K コンテキストを使う場合、必要VRAMは大きく増えます。&lt;/p&gt;
&lt;h2 id=&#34;どう選ぶか&#34;&gt;どう選ぶか
&lt;/h2&gt;&lt;p&gt;ローカルで Gemma 4 を試したいだけなら：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;4GB〜6GB VRAM：&lt;code&gt;E2B Q3_K_M&lt;/code&gt; または &lt;code&gt;E2B Q4_K_M&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;8GB VRAM：まず &lt;code&gt;E4B Q4_K_M&lt;/code&gt;。&lt;code&gt;E2B Q8_0&lt;/code&gt; も選択肢。&lt;/li&gt;
&lt;li&gt;12GB VRAM：&lt;code&gt;E4B Q8_0&lt;/code&gt;、または 26B/31B の低ビット版を試す。&lt;/li&gt;
&lt;li&gt;16GB VRAM：&lt;code&gt;26B A4B UD-Q3_K_M&lt;/code&gt; または &lt;code&gt;31B Q3_K_S&lt;/code&gt; を試せるが、長いコンテキストは期待しすぎない。&lt;/li&gt;
&lt;li&gt;24GB VRAM：&lt;code&gt;26B A4B UD-Q4_K_M&lt;/code&gt; と &lt;code&gt;31B Q4_K_M&lt;/code&gt; が本命。&lt;/li&gt;
&lt;li&gt;32GB 以上：&lt;code&gt;Q5_K_M&lt;/code&gt;、&lt;code&gt;Q6_K&lt;/code&gt;、またはより長いコンテキストを検討。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;多くのユーザーに BF16 は不要です。
ローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、速度、コンテキスト長、出力品質のバランスです。&lt;/p&gt;
&lt;h2 id=&#34;参考元&#34;&gt;参考元
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/google/gemma-4-E2B-it&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;google/gemma-4-E2B-it - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/google/gemma-4-E4B-it&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;google/gemma-4-E4B-it - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/ggml-org/gemma-4-26B-A4B-it-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;ggml-org/gemma-4-26B-A4B-it-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/gemma-4-E2B-it-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/gemma-4-E4B-it-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/gemma-4-26B-A4B-it-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/gemma-4-31B-it-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/gemma-4-31B-it-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>8GB VRAM で llama.cpp をどう調整するか: 32K の方が安定しやすく、64K では KV Cache 量子化が重要</title>
        <link>https://knightli.com/ja/2026/04/23/llama-cpp-8g-vram-32k-64k-kv-cache-tuning/</link>
        <pubDate>Thu, 23 Apr 2026 12:13:04 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/23/llama-cpp-8g-vram-32k-64k-kv-cache-tuning/</guid>
        <description>&lt;p&gt;&lt;code&gt;8GB&lt;/code&gt; の VRAM でローカル LLM をスムーズに動かせるのか、特に長いコンテキストで速度を維持できるのかは、&lt;code&gt;llama.cpp&lt;/code&gt; を使う人がよく直面する問題です。&lt;/p&gt;
&lt;p&gt;まず覚えておきたいポイントは 3 つあります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;8GB&lt;/code&gt; VRAM では、&lt;code&gt;32K&lt;/code&gt; コンテキストの方が安定したバランスになりやすい&lt;/li&gt;
&lt;li&gt;どうしても &lt;code&gt;64K&lt;/code&gt; を使いたいなら、&lt;code&gt;KV Cache&lt;/code&gt; の量子化がほぼ必須になる&lt;/li&gt;
&lt;li&gt;フル GPU 推論では、&lt;code&gt;CPU&lt;/code&gt; スレッド数をむやみに増やすとかえって遅くなることがある&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;1-まず32k64kkv-cache-とは何か&#34;&gt;1. まず、32K・64K・KV Cache とは何か
&lt;/h2&gt;&lt;p&gt;この手の調整記事で最初につまずきやすいのが、この 3 つの用語です。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;32K&lt;/code&gt; と &lt;code&gt;64K&lt;/code&gt; はコンテキスト長を意味し、モデルが一度に処理できる &lt;code&gt;token&lt;/code&gt; 数の上限を表します。ここでの &lt;code&gt;K&lt;/code&gt; は千なので、&lt;code&gt;32K&lt;/code&gt; は約 &lt;code&gt;32000 token&lt;/code&gt;、&lt;code&gt;64K&lt;/code&gt; は約 &lt;code&gt;64000 token&lt;/code&gt; です。コンテキストが長いほど、モデルは一度により多くの過去情報を見られるため、長文読解、長い対話、複数段階の分析に向いています。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;KV Cache&lt;/code&gt; は、連続生成を高速化するためにモデルが保持する中間結果のキャッシュです。すでに読んで計算済みの部分を毎回最初から計算し直すのではなく、重要な中間情報を保存して再利用する仕組みだと考えるとわかりやすいです。&lt;code&gt;K&lt;/code&gt; と &lt;code&gt;V&lt;/code&gt; は Transformer の &lt;code&gt;Key&lt;/code&gt; と &lt;code&gt;Value&lt;/code&gt; を指します。&lt;/p&gt;
&lt;p&gt;この 3 つがいつも一緒に出てくるのは、次の関係があるからです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;32K&lt;/code&gt; と &lt;code&gt;64K&lt;/code&gt; は、一度にどれだけの内容を記憶させたいかを決める&lt;/li&gt;
&lt;li&gt;&lt;code&gt;KV Cache&lt;/code&gt; は、その記憶を維持するためにどれだけ追加の VRAM が必要かを決める&lt;/li&gt;
&lt;li&gt;コンテキストが長くなるほど &lt;code&gt;KV Cache&lt;/code&gt; は大きくなり、VRAM の負担も増える&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;そのため、長コンテキストで速度が落ちる原因は、モデルの計算能力不足というより、キャッシュが大きくなりすぎて VRAM が限界に近づくことにある場合が多いです。&lt;/p&gt;
&lt;h2 id=&#34;2-なぜ-32k-と-64k-で速度差が大きくなるのか&#34;&gt;2. なぜ 32K と 64K で速度差が大きくなるのか
&lt;/h2&gt;&lt;p&gt;たとえば《三体》の約 &lt;code&gt;3&lt;/code&gt; 万字を使って負荷テストを行い、&lt;code&gt;32K&lt;/code&gt; と &lt;code&gt;64K&lt;/code&gt; のコンテキストを比較すると、文章量が近くても &lt;code&gt;64K&lt;/code&gt; の方が大きく遅くなり、総処理時間もかなり長くなることがあります。&lt;/p&gt;
&lt;p&gt;原因はモデルが急に遅くなったからではなく、VRAM の境界にぶつかったからです。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;32K&lt;/code&gt; では、モデルの重みとキャッシュがまだ &lt;code&gt;8GB&lt;/code&gt; VRAM の中にほぼ収まり、データは主に GPU メモリ帯域の中で処理されます。ところが &lt;code&gt;64K&lt;/code&gt; にするとキャッシュがさらに増え、総使用量が VRAM 上限に近づくか超えてしまい、一部データが共有メモリやシステムメモリに押し出されます。&lt;/p&gt;
&lt;p&gt;このとき落ちるのは演算性能そのものではなく、帯域です。&lt;/p&gt;
&lt;p&gt;つまり、「コンテキストを倍にしたら急に遅くなった」という現象の本質は、データ経路が VRAM からより遅いメモリへ落ちたことにあります。&lt;/p&gt;
&lt;h2 id=&#34;3-64k-を使うならkv-cache-量子化が重要&#34;&gt;3. 64K を使うなら、KV Cache 量子化が重要
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;8GB&lt;/code&gt; VRAM 環境で特に重要なのが、&lt;code&gt;KV Cache&lt;/code&gt; の量子化です。&lt;/p&gt;
&lt;p&gt;モデル本体を変えず、キャッシュだけを量子化すると、長コンテキスト時のキャッシュ使用量を直接削減できます。すると、もともと VRAM からあふれていた一部のデータを 다시 VRAM 側に戻しやすくなります。その結果、&lt;code&gt;64K&lt;/code&gt; は依然として &lt;code&gt;32K&lt;/code&gt; より重いものの、最も遅い領域に落ち込みにくくなります。&lt;/p&gt;
&lt;p&gt;要するに、&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;32K&lt;/code&gt; は &lt;code&gt;8GB&lt;/code&gt; VRAM における実用的な標準レンジ&lt;/li&gt;
&lt;li&gt;&lt;code&gt;64K&lt;/code&gt; も不可能ではない&lt;/li&gt;
&lt;li&gt;ただしキャッシュ量子化なしでは、「使える」から「かなり厳しい」へ一気に落ちやすい&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;長コンテキストを安定して使いたいなら、優先順位は次のようになります。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;まず VRAM が上限に近づいていないか確認する&lt;/li&gt;
&lt;li&gt;次に &lt;code&gt;KV Cache&lt;/code&gt; 量子化を有効にするか判断する&lt;/li&gt;
&lt;li&gt;その後で、より攻めたスループット設定を試す&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;4-gpu-使用率が低くてもgpu-が遊んでいるとは限らない&#34;&gt;4. GPU 使用率が低くても、GPU が遊んでいるとは限らない
&lt;/h2&gt;&lt;p&gt;これは直感に反しやすいポイントです。&lt;/p&gt;
&lt;p&gt;タスクマネージャーで &lt;code&gt;GPU&lt;/code&gt; 使用率が 20% や 30% しか見えないと、多くの人は次のように考えます。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;パラメータ設定が間違っているのではないか&lt;/li&gt;
&lt;li&gt;モデルが本当に GPU 上で動いていないのではないか&lt;/li&gt;
&lt;li&gt;GPU を使い切れていないのではないか&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;しかし &lt;code&gt;llama.cpp&lt;/code&gt; の推論では、ボトルネックがコア演算ではなくメモリ読み書きにあることがよくあります。&lt;/p&gt;
&lt;p&gt;つまり、GPU コアはあるバッチの計算をすぐ終えても、次の重みやキャッシュデータが届くまで待たされる、という状態です。&lt;/p&gt;
&lt;p&gt;その結果、&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;コア使用率はそれほど高くない&lt;/li&gt;
&lt;li&gt;それでも全体の速度は伸びない&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;という現象になります。&lt;/p&gt;
&lt;p&gt;これは GPU が怠けているのではなく、データ経路が狭いだけです。&lt;/p&gt;
&lt;p&gt;そのため、ローカル LLM の速度を見るときは &lt;code&gt;GPU Usage&lt;/code&gt; だけで判断してはいけません。VRAM 容量、メモリ帯域、キャッシュのあふれ方の方が重要なことが多いです。&lt;/p&gt;
&lt;h2 id=&#34;5-スループット関連パラメータは効くことがあるがvram-余裕が前提&#34;&gt;5. スループット関連パラメータは効くことがあるが、VRAM 余裕が前提
&lt;/h2&gt;&lt;p&gt;GPU コアが完全には埋まっていないなら、スループット関連の設定を上げて一度に処理するデータ量を増やし、GPU の並列性をもっと引き出せるのではないか、という考え方があります。&lt;/p&gt;
&lt;p&gt;これは実際に速度向上につながることがあります。&lt;/p&gt;
&lt;p&gt;ただし前提条件があります。VRAM にまだ余裕があることです。&lt;/p&gt;
&lt;p&gt;スループット関連の設定を上げると、VRAM 使用量も増えることが多いからです。すでに &lt;code&gt;64K&lt;/code&gt;、大きなキャッシュ、VRAM ぎりぎりという状態でさらに押し上げると、次のような結果になりがちです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;そのままクラッシュする&lt;/li&gt;
&lt;li&gt;クラッシュしなくても、より遅い共有メモリモードに落ちる&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;したがって、より安全な順番は「最初に全部最大化する」ことではなく、&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;まず VRAM の境界を守る&lt;/li&gt;
&lt;li&gt;次にスループット最適化を試す&lt;/li&gt;
&lt;li&gt;変更のたびに速度と安定性を確認する&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;という流れです。&lt;/p&gt;
&lt;h2 id=&#34;6-cpu-スレッドは多ければ多いほどよいわけではない&#34;&gt;6. CPU スレッドは多ければ多いほどよいわけではない
&lt;/h2&gt;&lt;p&gt;これも覚えておきやすい落とし穴です。&lt;/p&gt;
&lt;p&gt;スレッドが多いほど速いはずだ、と考えるのは自然です。しかし、モデルがすでに主に GPU で動いている場合、&lt;code&gt;CPU&lt;/code&gt; スレッド数を無理に増やすとかえって性能が落ちることがあります。&lt;/p&gt;
&lt;p&gt;理由は単純です。&lt;/p&gt;
&lt;p&gt;フル GPU 推論では、&lt;code&gt;CPU&lt;/code&gt; は主力の計算機というより、スケジューラや前処理補助の役割に近くなります。この状態でスレッドを増やしすぎると、CPU 側のスレッド競合、スケジューリング負荷、コンテキストスイッチのコストが大きくなり、本来スムーズであるべきデータの流れを乱してしまいます。&lt;/p&gt;
&lt;p&gt;結果として、&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;CPU&lt;/code&gt; はより忙しそうに見える&lt;/li&gt;
&lt;li&gt;それでも全体は遅くなる&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ということが起きます。&lt;/p&gt;
&lt;p&gt;この種の構成では、デフォルト設定や低めのスレッド数の方が、全部を最大化するより安定しやすいです。&lt;/p&gt;
&lt;h2 id=&#34;7-8gb-vram-向けのより実用的な考え方&#34;&gt;7. 8GB VRAM 向けの、より実用的な考え方
&lt;/h2&gt;&lt;p&gt;ここまでの結論を実行しやすい形にまとめると、だいたい次のようになります。&lt;/p&gt;
&lt;h3 id=&#34;1-まず-32k-を標準目標にする&#34;&gt;1. まず 32K を標準目標にする
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;8GB&lt;/code&gt; GPU なら、最初から &lt;code&gt;64K&lt;/code&gt; を狙いにいかない方が無難です。&lt;code&gt;32K&lt;/code&gt; の方が、速度・安定性・メモリ使用量のバランスが取りやすいことが多いです。&lt;/p&gt;
&lt;h3 id=&#34;2-64k-を使いたいならまずキャッシュを見る&#34;&gt;2. 64K を使いたいなら、まずキャッシュを見る
&lt;/h3&gt;&lt;p&gt;「あと少し速くできるか」より先に、&lt;code&gt;KV Cache&lt;/code&gt; が量子化されているか、VRAM がすでに限界付近ではないかを確認すべきです。&lt;/p&gt;
&lt;h3 id=&#34;3-gpu-使用率だけで判断しない&#34;&gt;3. GPU 使用率だけで判断しない
&lt;/h3&gt;&lt;p&gt;使用率が低いからといって設定ミスとは限りません。単にメモリ帯域が本当のボトルネックかもしれません。&lt;/p&gt;
&lt;h3 id=&#34;4-スループット最適化は有効だがvram-境界を越えない&#34;&gt;4. スループット最適化は有効だが、VRAM 境界を越えない
&lt;/h3&gt;&lt;p&gt;これらの設定は確かに効くことがありますが、前提は VRAM に余裕があることです。&lt;/p&gt;
&lt;h3 id=&#34;5-cpu-スレッドは保守的に始める&#34;&gt;5. CPU スレッドは保守的に始める
&lt;/h3&gt;&lt;p&gt;モデルがほぼ GPU 上で動いているなら、CPU スレッド数は高ければよいわけではありません。まずはデフォルトか低めで試し、必要なら少しずつ調整します。&lt;/p&gt;
&lt;h2 id=&#34;結論&#34;&gt;結論
&lt;/h2&gt;&lt;p&gt;この話の価値は、いくつかのベンチマーク数字そのものより、ひとつの見落とされがちな事実をはっきりさせてくれる点にあります。&lt;/p&gt;
&lt;p&gt;ローカル LLM の調整で本当に大事なのは、すべての設定を最大にすることではなく、ボトルネックが演算性能なのか、VRAM 容量なのか、メモリ帯域なのか、それとも &lt;code&gt;CPU&lt;/code&gt; のスケジューリングなのかを見極めることです。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;8GB&lt;/code&gt; VRAM ユーザーにとって、より安全な方針は「最長コンテキストを無理に追う」ことではなく、まず VRAM の境界を守り、そのうえでどこまで伸ばすかを判断することです。&lt;/p&gt;
&lt;p&gt;ひとことでまとめるなら、こうです。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;32K&lt;/code&gt; は &lt;code&gt;8GB&lt;/code&gt; VRAM でより安定しやすい作業レンジであり、&lt;code&gt;64K&lt;/code&gt; も不可能ではないが、その前提として &lt;code&gt;KV Cache&lt;/code&gt; と VRAM 使用量をしっかり管理できている必要がある。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>16GB GPUでも35Bモデルは動かせる: LM StudioでMoEモデルのVRAMを圧縮する考え方</title>
        <link>https://knightli.com/ja/2026/04/22/16gb-gpu-run-35b-moe-models-in-lm-studio/</link>
        <pubDate>Wed, 22 Apr 2026 21:47:34 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/22/16gb-gpu-run-35b-moe-models-in-lm-studio/</guid>
        <description>&lt;p&gt;16GB VRAM というと、ローカルで大規模モデルを動かす場合はせいぜい 12B〜14B あたりが限界で、それ以上は量子化してもかなり厳しい、というイメージを持つ人が多いと思います。その見方は完全に間違いではありませんが、16GB GPU の本当の上限でもありません。&lt;/p&gt;
&lt;p&gt;モデル選定とパラメータ設定がうまく噛み合えば、16GB GPU は必ずしも「小さめのモデル」に留まる必要はありません。その代表的な考え方のひとつが、&lt;code&gt;LM Studio&lt;/code&gt; で &lt;code&gt;MoE&lt;/code&gt; モデルを使い、適切なアンロード戦略によって 35B 級モデルを実用的な速度で回すというものです。&lt;/p&gt;
&lt;h2 id=&#34;01-なぜ16gb-gpuが12b14bに固定されるわけではないのか&#34;&gt;01 なぜ16GB GPUが12B〜14Bに固定されるわけではないのか
&lt;/h2&gt;&lt;p&gt;ここでの核心はシンプルです。VRAM 容量は重要ですが、モデルのアーキテクチャも同じくらい重要です。&lt;/p&gt;
&lt;p&gt;標準的な dense モデルを 16GB GPU に無理やり押し込もうとすると、すぐに限界に当たります。こうしたモデルは推論時に基本的にすべてのパラメータ計算へ関与するため、VRAM と帯域の負荷が一気に上がるからです。&lt;/p&gt;
&lt;p&gt;しかし &lt;code&gt;MoE&lt;/code&gt; モデルは違います。総パラメータ数は大きくても、1 回の推論で実際に有効化される専門家パラメータはその一部だけです。35B 級モデルを例にすると、総量は大きくても、1 回の推論で実際に計算に参加するパラメータはずっと少ないため、実際の VRAM 要求は想像ほど極端ではありません。&lt;/p&gt;
&lt;p&gt;だからこそ、16GB GPU にもまだ工夫の余地があります。&lt;/p&gt;
&lt;h2 id=&#34;02-実測上のポイント-35bのmoeモデルはかなり速く動く&#34;&gt;02 実測上のポイント: 35BのMoEモデルはかなり速く動く
&lt;/h2&gt;&lt;p&gt;代表的な例として挙げられるのが、&lt;code&gt;Qwen 3.5 35B A3B&lt;/code&gt; のような &lt;code&gt;MoE&lt;/code&gt; モデルの量子化版です。16GB GPU と &lt;code&gt;LM Studio&lt;/code&gt; の組み合わせで設定を調整すると、&lt;code&gt;Q6&lt;/code&gt; 量子化で 30 &lt;code&gt;tokens/s&lt;/code&gt; を超える水準に届き、&lt;code&gt;Q4&lt;/code&gt; ではさらに高い速度が出ることもあります。&lt;/p&gt;
&lt;p&gt;この結果に価値があるのは、単に「動く」からではありません。速度がすでに「明らかに実用的」と言える水準に入っているからです。&lt;/p&gt;
&lt;p&gt;比較として、同じくらい大きな規模でも &lt;code&gt;MoE&lt;/code&gt; ではないモデルを 16GB GPU で無理に回そうとすると、VRAM あふれや大幅な速度低下が起こりがちです。つまり結果を決めるのは、総パラメータ数だけではなく、推論時にそのパラメータをどう使うかです。&lt;/p&gt;
&lt;h2 id=&#34;03-lm-studioでは見るべきパラメータが1つではない&#34;&gt;03 LM Studioでは、見るべきパラメータが1つではない
&lt;/h2&gt;&lt;p&gt;16GB GPU でこうしたモデルを安定して動かすには、運任せではなく、2 つのパラメータを正しく調整する必要があります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;GPU Offload&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;一部の expert layer を CPU メモリへ強制的に載せるための設定&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;前者は比較的わかりやすく、&lt;code&gt;GPU Offload&lt;/code&gt; は基本的に可能な限り高く設定し、GPU 側での計算を優先させます。&lt;/p&gt;
&lt;p&gt;後者こそが重要です。これは「VRAM があふれてからシステムメモリを借りる」という昔ながらのやり方ではなく、あらかじめ一部の expert layer を CPU メモリへ逃がして VRAM 使用量を下げる方法です。&lt;code&gt;MoE&lt;/code&gt; モデルはそもそも毎回すべての expert を有効化するわけではないため、専門家層の一部をメモリ側へ回しても、推論速度への影響は多くの人が思うほど大きくありません。&lt;/p&gt;
&lt;p&gt;実際には、まず一定の範囲から試し、手元のマシンに合わせて少しずつ調整するのが安全です。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;関連値を &lt;code&gt;20&lt;/code&gt;〜&lt;code&gt;35&lt;/code&gt; あたりから始める&lt;/li&gt;
&lt;li&gt;VRAM 使用量とメモリ圧力を見ながら微調整する&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;本質的には、システムメモリを使って VRAM の余裕を買う方法です。&lt;/p&gt;
&lt;h2 id=&#34;04-128kコンテキストでも動きさらに縮めればvramをもっと減らせる&#34;&gt;04 128Kコンテキストでも動き、さらに縮めればVRAMをもっと減らせる
&lt;/h2&gt;&lt;p&gt;もうひとつ面白いのは、コンテキスト長を &lt;code&gt;128K&lt;/code&gt; に引き上げた状態でも、35B 級 &lt;code&gt;MoE&lt;/code&gt; モデルが比較的高い速度を保てることです。&lt;/p&gt;
&lt;p&gt;ここからわかるのは、16GB GPU の限界は思っているほど固定的ではない、ということです。特に &lt;code&gt;LM Studio&lt;/code&gt; のようなローカル推論ツールでは、「動くか動かないか」の二択ではなく、実際には次のようなトレードオフになります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;より多くのシステムメモリを使ってでも VRAM を節約するか&lt;/li&gt;
&lt;li&gt;コンテキスト長を短くするか&lt;/li&gt;
&lt;li&gt;量子化ごとの能力差を受け入れるか&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;もしコンテキストを &lt;code&gt;128K&lt;/code&gt; から &lt;code&gt;64K&lt;/code&gt; や &lt;code&gt;32K&lt;/code&gt; に縮めれば、VRAM 圧力はさらに下げられます。つまり、35B 級の &lt;code&gt;MoE&lt;/code&gt; モデルの中には、より少ない VRAM の GPU でも何とか動くものが出てくる可能性があります。ただし、その分だけ速度とメモリ負荷のバランスは再調整が必要になります。&lt;/p&gt;
&lt;h2 id=&#34;05-この方法の代償-ramと仮想メモリへの要求が高くなる&#34;&gt;05 この方法の代償: RAMと仮想メモリへの要求が高くなる
&lt;/h2&gt;&lt;p&gt;もちろん、この方法はタダで性能が増えるわけではありません。&lt;/p&gt;
&lt;p&gt;注意すべきなのは、VRAM 圧力をさらに圧縮すると、システム RAM の使用量が目立って増え、仮想メモリの負荷も上がることです。つまり、コストが消えるのではなく、GPU から RAM とディスクスワップへ圧力が移るだけです。&lt;/p&gt;
&lt;p&gt;そのため、実際に試すなら、先にいくつか確認しておくべきです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;システム RAM が十分あるか&lt;/li&gt;
&lt;li&gt;仮想メモリを十分に確保しているか&lt;/li&gt;
&lt;li&gt;バックグラウンドで重いソフトがたくさん動いていないか&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;こうした条件が揃っていないと、「35B が速く動く」どころか、マシン全体が遅くなる可能性があります。&lt;/p&gt;
&lt;h2 id=&#34;06-量子化は攻めればいいというものでもない&#34;&gt;06 量子化は攻めればいいというものでもない
&lt;/h2&gt;&lt;p&gt;ここにはもうひとつ実務的な判断があります。より低ビットの量子化はたしかに VRAM をさらに節約しやすいですが、それが最善とは限りません。&lt;/p&gt;
&lt;p&gt;実際には、&lt;code&gt;Q4&lt;/code&gt; のほうが速度は高くても、元の能力が落ちやすいモデルもあります。その点、&lt;code&gt;Q6&lt;/code&gt; は速度と能力保持のバランスが取りやすいことが多いです。結局は、自分がどちらを優先するかです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;とにかく速く、VRAM に収めたいのか&lt;/li&gt;
&lt;li&gt;それともモデル本来の能力をより多く残したいのか&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;この優先順位によって、選ぶ量子化は変わってきます。&lt;/p&gt;
&lt;h2 id=&#34;07-試す価値があるモデルの考え方&#34;&gt;07 試す価値があるモデルの考え方
&lt;/h2&gt;&lt;p&gt;この観点で見ると、やるべきことは「とにかく大きいモデルを追うこと」ではなく、この戦略に合うモデルを先に探すことです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;MoE&lt;/code&gt; アーキテクチャのモデル&lt;/li&gt;
&lt;li&gt;&lt;code&gt;LM Studio&lt;/code&gt; での対応が良く、量子化版が揃っているモデル&lt;/li&gt;
&lt;li&gt;長いコンテキストや instruction following に明確な強みがあるモデル&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;そして、この考え方は 1 つの 35B &lt;code&gt;MoE&lt;/code&gt; モデルだけに限りません。長文脈記憶に強い実験的モデル、命令追従が優秀なモデル、あるいは軽量量子化で速度が出るモデルなどにも自然に広げられます。&lt;/p&gt;
&lt;p&gt;つまり重要なのは、まず「メモリで VRAM を補う」戦略に合うアーキテクチャを見つけ、そのうえで調整に入ることです。最初に総パラメータ数だけ見て判断するべきではありません。&lt;/p&gt;
&lt;h2 id=&#34;08-まとめ&#34;&gt;08 まとめ
&lt;/h2&gt;&lt;p&gt;もし手元に 16GB GPU があり、ローカル LLM はせいぜい 12B〜14B までだと思っていたなら、その前提は少し更新してよさそうです。&lt;/p&gt;
&lt;p&gt;より正確に言えば、次のようになります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;16GB GPU でも大きめのモデルが完全に無理なわけではない&lt;/li&gt;
&lt;li&gt;dense モデルと &lt;code&gt;MoE&lt;/code&gt; モデルは分けて考える必要がある&lt;/li&gt;
&lt;li&gt;&lt;code&gt;LM Studio&lt;/code&gt; の &lt;code&gt;GPU Offload&lt;/code&gt; と expert layer の CPU メモリ移動は、VRAM 使用量を大きく変えられる&lt;/li&gt;
&lt;li&gt;実際には、より大きいモデル規模とより高い実用速度を得るために、より高いメモリ圧力を受け入れている&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;この方法がすべてのマシンに向くわけではありませんが、少なくともひとつ確かなことがあります。ローカル LLM 運用では、VRAM 上限だけが唯一の制約ではなく、モデルアーキテクチャと推論設定も同じくらい重要です。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Ollama マルチ GPU メモ：VRAM の合算、GPU 選択、よくある誤解</title>
        <link>https://knightli.com/ja/2026/04/19/ollama-multiple-gpu-notes/</link>
        <pubDate>Sun, 19 Apr 2026 00:18:00 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/19/ollama-multiple-gpu-notes/</guid>
        <description>&lt;p&gt;Ollama でローカル推論を試していると、よく次のような疑問が出てきます。今 1 枚 GPU があり、マザーボードに空き PCIe スロットがある場合、GPU を追加すると Ollama に効果があるのか。複数 GPU は同じ型番でなければならないのか。VRAM は合算できるのか。学習フレームワークのようにマルチ GPU で推論速度が大きく上がるのか。&lt;/p&gt;
&lt;p&gt;この記事では、Ollama のマルチ GPU 動作を整理します。先に結論を書くと次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Ollama は複数 GPU をサポートします。&lt;/li&gt;
&lt;li&gt;複数 GPU の主な価値は、より大きなモデルを合計 VRAM に載せやすくすることであり、token/s が線形に伸びることではありません。&lt;/li&gt;
&lt;li&gt;デフォルトでは、モデルが 1 枚の GPU に完全に収まる場合、Ollama は単一 GPU に載せる傾向があります。&lt;/li&gt;
&lt;li&gt;モデルが 1 枚の GPU に収まらない場合、Ollama は利用可能な GPU にモデルを分散できます。&lt;/li&gt;
&lt;li&gt;異なる型番の GPU も Ollama から見える場合がありますが、性能や配置が理想的とは限りません。&lt;/li&gt;
&lt;li&gt;SLI / NVLink は必須ではありません。&lt;/li&gt;
&lt;li&gt;Ollama が使う GPU を制限したい場合は、&lt;code&gt;CUDA_VISIBLE_DEVICES&lt;/code&gt;、&lt;code&gt;ROCR_VISIBLE_DEVICES&lt;/code&gt;、&lt;code&gt;GGML_VK_VISIBLE_DEVICES&lt;/code&gt; を使います。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;公式の挙動まず単一-gpu入らなければ複数-gpu&#34;&gt;公式の挙動：まず単一 GPU、入らなければ複数 GPU
&lt;/h2&gt;&lt;p&gt;Ollama FAQ では、マルチ GPU のロードロジックが比較的明確に説明されています。新しいモデルをロードするとき、Ollama は必要な VRAM を見積もり、現在利用可能な VRAM と比較します。モデルがどれか 1 枚の GPU に完全に収まる場合、その GPU にロードします。1 枚に収まらない場合、利用可能なすべての GPU に分散されます。&lt;/p&gt;
&lt;p&gt;この戦略の理由は性能です。単一 GPU に載せることで、推論時の PCIe バス越しのデータ転送を減らせるため、通常はそのほうが速くなります。&lt;/p&gt;
&lt;p&gt;そのため、Ollama のマルチ GPU を「GPU が増えれば自動で数倍速くなる」と考えないほうがよいです。より正確には次のように理解できます。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;小さいモデルが単一 GPU に入る：通常は単一 GPU で動く。&lt;/li&gt;
&lt;li&gt;大きいモデルが単一 GPU に入らない：複数 GPU に分層ロードされる。&lt;/li&gt;
&lt;li&gt;それでも VRAM が足りない：一部がシステムメモリに落ち、速度が大きく低下する。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;モデルがどこにロードされたかは、次のコマンドで確認できます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama ps
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;出力の &lt;code&gt;PROCESSOR&lt;/code&gt; には、たとえば次のように表示されます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;100% GPU
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;48%/52% CPU/GPU
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;100% CPU
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;code&gt;48%/52% CPU/GPU&lt;/code&gt; と表示される場合、一部がすでにシステムメモリにあります。この場合、CPU/RAM に頼り続けるより、GPU を増やすか、より大容量 VRAM の GPU に替えるほうが有効なことが多いです。&lt;/p&gt;
&lt;h2 id=&#34;マルチ-gpu-は単純な計算力の合算ではない&#34;&gt;マルチ GPU は単純な計算力の合算ではない
&lt;/h2&gt;&lt;p&gt;ローカル LLM 推論は、ゲームにおける SLI とは別物です。Ollama のマルチ GPU では、モデルの異なる層やテンソルを別々のデバイスに置く形が一般的です。これにより複数 GPU の VRAM を使って大きなモデルを載せられますが、推論中にはデバイス間でデータを渡す必要が出る場合があります。&lt;/p&gt;
&lt;p&gt;したがって、マルチ GPU の利点は通常 2 種類です。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;VRAM 面の利点：大きなモデルを載せやすくなり、CPU/RAM への退避を避けやすくなる。&lt;/li&gt;
&lt;li&gt;性能面の利点：単一 GPU に入らない、または CPU との混在が深刻な場合に目立ちやすい。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;8B や 14B のモデルが 1 枚の RTX 3090 に完全に入る場合、それを 2 枚の GPU に無理に分割しても速くなるとは限りません。むしろ GPU 間転送で遅くなる可能性があります。Ollama のデフォルトの「入るなら単一 GPU」戦略は、この不要な PCIe コストを避けるためのものです。&lt;/p&gt;
&lt;h2 id=&#34;sli-や-nvlink-は不要&#34;&gt;SLI や NVLink は不要
&lt;/h2&gt;&lt;p&gt;Ollama のマルチ GPU は SLI に依存しません。通常の PCIe GPU が複数あり、ドライバと Ollama が認識できれば、スケジューリング対象になります。&lt;/p&gt;
&lt;p&gt;NVLink やより高い PCIe 帯域は、一部の GPU 間分散シナリオで役立つ可能性がありますが、前提条件ではありません。中古 GPU サーバーやワークステーションでも、普通の PCIe マルチ GPU で動かせます。&lt;/p&gt;
&lt;p&gt;本当に注意すべきなのは PCIe 帯域です。&lt;code&gt;x1&lt;/code&gt;、&lt;code&gt;x4&lt;/code&gt;、&lt;code&gt;x8&lt;/code&gt;、&lt;code&gt;x16&lt;/code&gt; の差は、モデルを VRAM にロードする速度に影響します。大きなモデルを頻繁に切り替える場合、PCIe リンクはボトルネックになりやすくなります。モデルのロード後、生成時の影響は通常小さくなりますが、GPU 間分散には追加コストが残る可能性があります。&lt;/p&gt;
&lt;p&gt;無難な考え方は次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;可能なら x16 / x8 を使い、マイニング用 x1 riser は避ける。&lt;/li&gt;
&lt;li&gt;大きなモデルを頻繁に切り替えるなら、PCIe 帯域はより重要。&lt;/li&gt;
&lt;li&gt;モデルを長時間 VRAM に常駐させる場合、PCIe 帯域の影響は相対的に小さくなる。&lt;/li&gt;
&lt;li&gt;マルチ GPU 機では、マザーボードの PCIe トポロジーと CPU 直結レーンを確認する。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;ollama-が使う-nvidia-gpu-を制限する&#34;&gt;Ollama が使う NVIDIA GPU を制限する
&lt;/h2&gt;&lt;p&gt;NVIDIA のマルチ GPU 環境では、&lt;code&gt;CUDA_VISIBLE_DEVICES&lt;/code&gt; で Ollama から見える GPU を制御します。&lt;/p&gt;
&lt;p&gt;一時的に実行する場合：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;CUDA_VISIBLE_DEVICES&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;0,1 ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;2 枚目の GPU だけを使う場合：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;CUDA_VISIBLE_DEVICES&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;NVIDIA GPU を使わせない場合は、無効な ID を指定できます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;CUDA_VISIBLE_DEVICES&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;-1 ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;公式ドキュメントでは、数値 ID の順序は変わる可能性があるため、GPU UUID のほうが信頼できるとされています。まず UUID を確認します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;nvidia-smi -L
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;出力例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;GPU 0: NVIDIA GeForce RTX 3090 (UUID: GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx)
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;GPU 1: NVIDIA GeForce RTX 3070 (UUID: GPU-yyyyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;その後、UUID を指定します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;CUDA_VISIBLE_DEVICES&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Linux の systemd サービスとして Ollama をインストールしている場合は、サービス環境変数に書きます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;sudo systemctl edit ollama.service
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;追加内容：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-ini&#34; data-lang=&#34;ini&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;[Service]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;na&#34;&gt;Environment&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;&amp;#34;CUDA_VISIBLE_DEVICES=0,1&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;再読み込みして再起動します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;sudo systemctl daemon-reload
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;sudo systemctl restart ollama
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;amd-と-vulkan-の選択変数&#34;&gt;AMD と Vulkan の選択変数
&lt;/h2&gt;&lt;p&gt;AMD ROCm 環境では、&lt;code&gt;ROCR_VISIBLE_DEVICES&lt;/code&gt; で見える GPU を制御します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;ROCR_VISIBLE_DEVICES&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;0,1 ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ROCm GPU を使わせない場合も、無効な ID を指定できます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;ROCR_VISIBLE_DEVICES&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;-1 ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Ollama の GPU ドキュメントでは、実験的な Vulkan サポートも触れられています。Vulkan GPU を選ぶには &lt;code&gt;GGML_VK_VISIBLE_DEVICES&lt;/code&gt; を使います。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;OLLAMA_VULKAN&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;GGML_VK_VISIBLE_DEVICES&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;0&lt;/span&gt; ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Vulkan デバイスで問題が出る場合は無効化できます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;GGML_VK_VISIBLE_DEVICES&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;-1 ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;AMD のマルチ GPU は、NVIDIA よりもドライバ、ROCm バージョン、GFX バージョンの互換性問題に遭遇しやすいです。公式ドキュメントでも Linux の ROCm ドライバ要件や &lt;code&gt;HSA_OVERRIDE_GFX_VERSION&lt;/code&gt; などの互換性設定が説明されています。異なる世代の AMD GPU を混在させる場合は、まず各カードが単独で動くことを確認してからマルチ GPU を試すのが安全です。&lt;/p&gt;
&lt;h2 id=&#34;docker-で複数-gpu-を見せる&#34;&gt;Docker で複数 GPU を見せる
&lt;/h2&gt;&lt;p&gt;Docker で Ollama を動かす場合、NVIDIA 環境では通常 &lt;code&gt;nvidia-container-toolkit&lt;/code&gt; を入れ、&lt;code&gt;--gpus&lt;/code&gt; でデバイスを公開します。&lt;/p&gt;
&lt;p&gt;すべての GPU を公開：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;docker run -d &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --gpus&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;all &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -v ollama:/root/.ollama &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -p 11434:11434 &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --name ollama &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  ollama/ollama
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;指定した GPU だけを公開：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;docker run -d &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --gpus &lt;span class=&#34;s1&#34;&gt;&amp;#39;&amp;#34;device=0,1&amp;#34;&amp;#39;&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -v ollama:/root/.ollama &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -p 11434:11434 &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --name ollama &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  ollama/ollama
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;環境変数と組み合わせることもできます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;docker run -d &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --gpus&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;all &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -e &lt;span class=&#34;nv&#34;&gt;CUDA_VISIBLE_DEVICES&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;0,1 &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -v ollama:/root/.ollama &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -p 11434:11434 &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --name ollama &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  ollama/ollama
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;コンテナ内で &lt;code&gt;nvidia-smi&lt;/code&gt; が GPU を見られない場合、Ollama も GPU を使えません。まず Docker の GPU passthrough を確認し、その後 Ollama を確認します。&lt;/p&gt;
&lt;h2 id=&#34;ollama_sched_spread-とは&#34;&gt;&lt;code&gt;OLLAMA_SCHED_SPREAD&lt;/code&gt; とは
&lt;/h2&gt;&lt;p&gt;マルチ GPU 設定では、&lt;code&gt;OLLAMA_SCHED_SPREAD=1&lt;/code&gt; や &lt;code&gt;OLLAMA_SCHED_SPREAD=true&lt;/code&gt; を見かけることがあります。これは Ollama のスケジューラに関係する設定で、モデルやリクエストを複数 GPU により分散させたい場面で使われることがあります。&lt;/p&gt;
&lt;p&gt;設定例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;OLLAMA_SCHED_SPREAD&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;systemd の場合：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-ini&#34; data-lang=&#34;ini&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;[Service]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;na&#34;&gt;Environment&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;&amp;#34;OLLAMA_SCHED_SPREAD=true&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ただし万能ではありません。有効にしても token/s が線形に増えるわけではなく、複数モデルの同時ロード、VRAM 見積もり、コンテキスト長、KV cache の増加によって OOM になることもあります。公式 FAQ の基本方針は変わりません。1 枚の GPU にモデルが完全に入るなら単一 GPU のほうが効率的なことが多く、1 枚に入らないときに複数 GPU 分散が有効になります。&lt;/p&gt;
&lt;p&gt;そのため、&lt;code&gt;OLLAMA_SCHED_SPREAD&lt;/code&gt; はマルチ GPU 必須設定ではなく、高度なスケジューリング実験項目として扱うのがよいです。まずデフォルト挙動を理解し、&lt;code&gt;ollama ps&lt;/code&gt;、ログ、&lt;code&gt;nvidia-smi&lt;/code&gt; の結果を見ながら調整します。&lt;/p&gt;
&lt;h2 id=&#34;複数-gpu-が本当に使われているか確認する&#34;&gt;複数 GPU が本当に使われているか確認する
&lt;/h2&gt;&lt;p&gt;よく使う確認コマンド：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama ps
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;watch -n 0.5 nvidia-smi
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Ollama サービスログ：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;journalctl -u ollama -f
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Docker の場合：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;docker logs -f ollama
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;確認したい点：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Ollama が対応 GPU を検出しているか。&lt;/li&gt;
&lt;li&gt;モデルが &lt;code&gt;100% GPU&lt;/code&gt; または CPU/GPU 混在で表示されているか。&lt;/li&gt;
&lt;li&gt;各 GPU に VRAM 使用量があるか。&lt;/li&gt;
&lt;li&gt;モデルロード時に複数 GPU の VRAM が増えるか。&lt;/li&gt;
&lt;li&gt;生成時の token/s が CPU/RAM 退避より明らかに改善しているか。&lt;/li&gt;
&lt;li&gt;OOM やモデルのアンロードが頻発していないか。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;GPU 使用率だけを見ると誤解しやすいです。LLM 推論では、特にマルチ GPU、低 batch、小さいコンテキスト、遅い CPU、遅い PCIe 環境では、GPU 使用率が常に高いとは限りません。&lt;/p&gt;
&lt;h2 id=&#34;よくある誤解&#34;&gt;よくある誤解
&lt;/h2&gt;&lt;h3 id=&#34;誤解-112gb-gpu-2-枚は-24gb-gpu-1-枚と同じ&#34;&gt;誤解 1：12GB GPU 2 枚は 24GB GPU 1 枚と同じ
&lt;/h3&gt;&lt;p&gt;完全には同じではありません。複数 GPU にモデルを配置できますが、デバイス間アクセスには追加コストがあります。「入らない」問題は解決できますが、単一大容量 VRAM GPU と同じ速度や安定性になるとは限りません。&lt;/p&gt;
&lt;h3 id=&#34;誤解-2異なる型番の-gpu-は混在できない&#34;&gt;誤解 2：異なる型番の GPU は混在できない
&lt;/h3&gt;&lt;p&gt;必ずしもそうではありません。ドライバ、計算能力、ランタイムライブラリが対応していれば、Ollama は複数 GPU を認識できます。ただし混在構成では、遅いカード、小さい VRAM、PCIe トポロジーに制約されやすくなります。最も予測しやすいのは、同じ型番、同じ VRAM、同世代でサポートの良いドライバ構成です。&lt;/p&gt;
&lt;h3 id=&#34;誤解-3マルチ-gpu-は必ず単一-gpu-より速い&#34;&gt;誤解 3：マルチ GPU は必ず単一 GPU より速い
&lt;/h3&gt;&lt;p&gt;必ずしも速くありません。モデルが 1 枚の高速 GPU に完全に入る場合、単一 GPU のほうが速いことがあります。マルチ GPU は主に、大きなモデル、長いコンテキスト、単一 GPU の VRAM 不足に向いています。&lt;/p&gt;
&lt;h3 id=&#34;誤解-4nvlink--sli-が必須&#34;&gt;誤解 4：NVLink / SLI が必須
&lt;/h3&gt;&lt;p&gt;不要です。普通の PCIe マルチ GPU システムでも Ollama は利用できます。NVLink は前提条件ではありません。&lt;/p&gt;
&lt;h3 id=&#34;誤解-5gpu-を追加したらサービス再起動は不要&#34;&gt;誤解 5：GPU を追加したらサービス再起動は不要
&lt;/h3&gt;&lt;p&gt;必ずしもそうではありません。Linux systemd サービス、Windows のバックグラウンドアプリ、Docker コンテナは、デバイスや環境変数を再検出するために再起動が必要な場合があります。&lt;/p&gt;
&lt;h2 id=&#34;gpu-選びの目安&#34;&gt;GPU 選びの目安
&lt;/h2&gt;&lt;p&gt;Ollama のローカル推論では、おおよその優先順位は次の通りです。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;単一 GPU の VRAM が大きいほど扱いやすい。&lt;/li&gt;
&lt;li&gt;同一 GPU 複数枚は、混在 GPU よりトラブルシュートしやすい。&lt;/li&gt;
&lt;li&gt;PCIe レーンが十分あるほど、大きなモデルのロードが快適。&lt;/li&gt;
&lt;li&gt;古い GPU は CUDA compute capability または ROCm 対応を先に確認する。&lt;/li&gt;
&lt;li&gt;マルチ GPU では電源、冷却、筐体エアフローを事前に計算する。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;中古予算重視の場合：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;RTX 3090 2 枚は、今でもよく使われる大容量 VRAM 構成です。&lt;/li&gt;
&lt;li&gt;P40 / M40 のような古い Tesla は VRAM が大きい一方、消費電力、冷却、ドライバ、性能のトレードオフがあります。&lt;/li&gt;
&lt;li&gt;RTX 4070 / 4070 Ti などは効率が良いですが、単一 GPU の VRAM 容量が制約になりやすいです。&lt;/li&gt;
&lt;li&gt;古い 8GB GPU を複数枚使う構成は実験としては面白いですが、大きなモデルを長期運用する用途にはあまり向きません。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;p&gt;Ollama のマルチ GPU は、「性能加速より先に VRAM 拡張」と理解すると分かりやすいです。モデルが 1 枚の GPU に完全に入るなら、デフォルトの単一 GPU 経路のほうが速いことが多いです。1 枚に入らない場合、複数 GPU に分散することで CPU/RAM への大きな退避を避け、大きなモデルを実用的にできます。&lt;/p&gt;
&lt;p&gt;実際の設定では、まず &lt;code&gt;ollama ps&lt;/code&gt; でモデルのロード先を確認し、&lt;code&gt;nvidia-smi&lt;/code&gt; や ROCm ツールで VRAM 使用量を観察します。GPU を制限する場合、NVIDIA は &lt;code&gt;CUDA_VISIBLE_DEVICES&lt;/code&gt;、AMD ROCm は &lt;code&gt;ROCR_VISIBLE_DEVICES&lt;/code&gt;、Vulkan は &lt;code&gt;GGML_VK_VISIBLE_DEVICES&lt;/code&gt; を使います。Docker で動かす場合は、まずコンテナから GPU が見えているか確認します。&lt;/p&gt;
&lt;p&gt;マルチ GPU は魔法ではありません。より大きなモデルを載せる助けにはなりますが、線形加速は保証されません。安定して使うなら、大容量 VRAM の単一 GPU、または同一型番のマルチ GPU を優先し、ドライバ、PCIe、電源、冷却、モデル量子化をまとめて考えるのが現実的です。&lt;/p&gt;
&lt;h2 id=&#34;参考連結&#34;&gt;参考連結
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Ollama FAQ：How does Ollama load models on multiple GPUs?：&lt;a class=&#34;link&#34; href=&#34;https://github.com/ollama/ollama/blob/main/docs/faq.mdx&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/ollama/ollama/blob/main/docs/faq.mdx&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Ollama GPU ドキュメント：Hardware support / GPU Selection：&lt;a class=&#34;link&#34; href=&#34;https://github.com/ollama/ollama/blob/main/docs/gpu.mdx&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/ollama/ollama/blob/main/docs/gpu.mdx&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Ollama Docker Hub：&lt;a class=&#34;link&#34; href=&#34;https://hub.docker.com/r/ollama/ollama&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://hub.docker.com/r/ollama/ollama&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;NVIDIA Container Toolkit：&lt;a class=&#34;link&#34; href=&#34;https://github.com/NVIDIA/nvidia-container-toolkit&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/NVIDIA/nvidia-container-toolkit&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>llama-quantize の使用方法: GGUF モデル量子化の概要</title>
        <link>https://knightli.com/ja/2026/04/12/llama-quantize-gguf-guide/</link>
        <pubDate>Sun, 12 Apr 2026 09:42:36 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/12/llama-quantize-gguf-guide/</guid>
        <description>&lt;p&gt;&lt;code&gt;llama-quantize&lt;/code&gt; は、&lt;code&gt;llama.cpp&lt;/code&gt; の量子化ツールで、高精度 &lt;code&gt;GGUF&lt;/code&gt; モデルをより小さい量子化バージョンに変換するために使用されます。&lt;/p&gt;
&lt;p&gt;最も一般的な用途は、&lt;code&gt;F32&lt;/code&gt;、&lt;code&gt;BF16&lt;/code&gt;、&lt;code&gt;FP16&lt;/code&gt; などの高精度モデルを、ローカル操作に適した &lt;code&gt;Q4_K_M&lt;/code&gt;、&lt;code&gt;Q5_K_M&lt;/code&gt;、&lt;code&gt;Q8_0&lt;/code&gt; などの形式に変換することです。量子化後、モデルのサイズは大幅に小さくなり、通常は推論が速くなりますが、精度はある程度低下します。&lt;/p&gt;
&lt;h2 id=&#34;基本的な使い方&#34;&gt;基本的な使い方
&lt;/h2&gt;&lt;p&gt;一般的なプロセスでは、通常、最初に元のモデルを準備し、次にそれを GGUF に変換し、最後に定量化を実行します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;8
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# install Python dependencies&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python3 -m pip install -r requirements.txt
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# convert the model to ggml FP16 format&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python3 convert_hf_to_gguf.py ./models/mymodel/
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# quantize the model to 4-bits (using Q4_K_M method)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;量子化が完了したら、&lt;code&gt;llama-cli&lt;/code&gt; を直接使用して新しい GGUF ファイルをロードできます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# start inference on a gguf model&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./llama-cli -m ./models/mymodel/ggml-model-Q4_K_M.gguf -cnv -p &lt;span class=&#34;s2&#34;&gt;&amp;#34;You are a helpful assistant&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;共通パラメータ&#34;&gt;共通パラメータ
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;--allow-requantize&lt;/code&gt;: すでに定量化されたモデルの再定量化が可能ですが、品質が大幅に低下する可能性があるため、通常は推奨されません。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--leave-output-tensor&lt;/code&gt;: 量子化せずに出力レイヤーを保持します。ボリュームは大きくなりますが、場合によっては品質が向上する場合があります。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--pure&lt;/code&gt;: 混合量子化をオフにして、より多くのテンソルが同じ量子化タイプを使用できるようにします。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--imatrix&lt;/code&gt;: 重要度マトリックスを使用して量子化効果を最適化します。通常は優先順位を付ける価値があります。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--keep-split&lt;/code&gt;: 単一ファイルにマージするのではなく、入力モデルのシャード構造を保持します。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;単に始めたい場合は、最も現実的な出発点は次のとおりです。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;定量化の選び方&#34;&gt;定量化の選び方
&lt;/h2&gt;&lt;p&gt;まず、さまざまな定量化レベルを「体積、速度、質量の間の交換」として理解することができます。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q8_0&lt;/code&gt;: サイズは大きくなりますが、一般に品質がより安定しています。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6_K&lt;/code&gt; / &lt;code&gt;Q5_K_M&lt;/code&gt;: 共通のバランス型オプション&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;: 非常に一般的なデフォルト ファイル。通常、音量とエフェクトは比較的バランスが取れています。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3&lt;/code&gt; / &lt;code&gt;Q2&lt;/code&gt;: リソースが非常に不足しているが、品質の低下がより明らかになるシナリオに適しています。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;与えられたデータ例から判断すると、通常、量子化レベルが低いほど、モデルは小さくなります。実際の推論では、精度が高いほど必ずしも高速であるとは限りません。そのため、通常、選択の焦点は「大きいほど良い」ではなく、「ハードウェア上で十分に安定しており、十分に経済的で、効果が許容範囲である」ことに重点を置きます。&lt;/p&gt;
&lt;h2 id=&#34;実践的なアドバイス&#34;&gt;実践的なアドバイス
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt; または &lt;code&gt;Q5_K_M&lt;/code&gt; から優先順位を付ける&lt;/li&gt;
&lt;li&gt;品質がより重要な場合は、&lt;code&gt;Q6_K&lt;/code&gt; または &lt;code&gt;Q8_0&lt;/code&gt; にアップグレードしてください。&lt;/li&gt;
&lt;li&gt;マシン リソースが不足している場合は、&lt;code&gt;Q3&lt;/code&gt; または &lt;code&gt;Q2&lt;/code&gt; を試してください。&lt;/li&gt;
&lt;li&gt;異なる量子化バージョンを比較するには、常に同じバッチのテスト問題を使用することが最善です&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一文の要約: &lt;code&gt;llama-quantize&lt;/code&gt; の中心的な価値は、単にモデルを小さくすることではなく、GGUF モデルをローカル デバイス上で実行しやすくすることです。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>llama.cpp Hugging Face から GGUF モデルを取得する方法</title>
        <link>https://knightli.com/ja/2026/04/12/llama-cpp-hugging-face-gguf-models/</link>
        <pubDate>Sun, 12 Apr 2026 09:31:38 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/12/llama-cpp-hugging-face-gguf-models/</guid>
        <description>&lt;p&gt;&lt;code&gt;llama.cpp&lt;/code&gt; は、Hugging Face の GGUF モデルで直接使用できます。最初にファイルを手動でローカルにダウンロードする必要はありません。&lt;/p&gt;
&lt;p&gt;モデル ウェアハウス自体が GGUF ファイルを提供している場合は、次のようにコマンド ラインで &lt;code&gt;-hf&lt;/code&gt; パラメーターを直接使用できます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf ggml-org/gemma-3-1b-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;デフォルトでは、このパラメータは Hugging Face からモデルをダウンロードします。&lt;br&gt;
Hugging Face API と互換性のある別のモデル ホスティング サービスを使用している場合は、環境変数 &lt;code&gt;MODEL_ENDPOINT&lt;/code&gt; を通じてダウンロード エンドポイントを切り替えることもできます。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;llama.cpp&lt;/code&gt; は、&lt;code&gt;GGUF&lt;/code&gt; 形式のみを直接使用できることに注意してください。&lt;br&gt;
他の形式でモデル ファイルを取得した場合は、まずウェアハウス内の &lt;code&gt;convert_*.py&lt;/code&gt; スクリプトを使用して、それを &lt;code&gt;GGUF&lt;/code&gt; に変換する必要があります。&lt;/p&gt;
&lt;p&gt;Hugging Face は、&lt;code&gt;llama.cpp&lt;/code&gt; に関連するいくつかのオンライン ツールも提供します。一般的な用途には次のようなものがあります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;モデルを &lt;code&gt;GGUF&lt;/code&gt; に変換します&lt;/li&gt;
&lt;li&gt;モデルを定量化し、サイズを縮小する&lt;/li&gt;
&lt;li&gt;LoRA アダプターを変換する&lt;/li&gt;
&lt;li&gt;GGUF メタデータをオンラインで編集する&lt;/li&gt;
&lt;li&gt;&lt;code&gt;llama.cpp&lt;/code&gt; 推論サービスを直接ホストする&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最も実用的な結論だけを覚えておきたい場合は、まず &lt;code&gt;GGUF&lt;/code&gt; をすでに提供しているモデル ウェアハウスを探し、次に &lt;code&gt;llama-cli -hf &amp;lt;user&amp;gt;/&amp;lt;model&amp;gt;&lt;/code&gt; を直接使用します。これが通常は最も簡単な方法です。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Gemma-4-31B ではどういう意味ですか?</title>
        <link>https://knightli.com/ja/2026/04/11/gemma-4-31b-it-meaning/</link>
        <pubDate>Sat, 11 Apr 2026 20:45:34 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/11/gemma-4-31b-it-meaning/</guid>
        <description>&lt;p&gt;&lt;code&gt;gemma-4-31B-it&lt;/code&gt; という名前の &lt;code&gt;it&lt;/code&gt; は、「命令微調整」バージョンである &lt;code&gt;Instruction Tuned&lt;/code&gt; の略称です。&lt;/p&gt;
&lt;p&gt;ほとんどの人にとって、これは次のように理解できます。このモデルは、チャット、Q&amp;amp;A、コードの作成、および明示的なタスクの実行により適しています。&lt;/p&gt;
&lt;h2 id=&#34;itとは&#34;&gt;&lt;code&gt;it&lt;/code&gt;とは
&lt;/h2&gt;&lt;p&gt;モデルには通常、次の 2 つの一般的なバージョンがあります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;基本/事前トレーニング済み: 元のテキスト予測子に近い基本モデル。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;it&lt;/code&gt;: コマンドを微調整した後、「何をしてもらえますか?」などの入力をよりよく理解できるようになりました。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;「これを翻訳してください」または「この Python コードを書いてください」と入力した場合、通常、&lt;code&gt;it&lt;/code&gt; バージョンの方が安定しており、より会話的です。&lt;/p&gt;
&lt;h2 id=&#34;31bとは&#34;&gt;&lt;code&gt;31B&lt;/code&gt;とは
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;31B&lt;/code&gt; は、このモデルに約 310 億のパラメーターがあることを意味します。&lt;/p&gt;
&lt;p&gt;一般的に言えば:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;パラメーターの数が増えるほど、モデルの機能と知識の範囲が強化される傾向があります。&lt;/li&gt;
&lt;li&gt;同時に、ビデオ メモリやメモリの要件も高くなります。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;そのため、&lt;code&gt;31B&lt;/code&gt; は比較的大規模なモデルとなり、動作閾値が高くなります。&lt;/p&gt;
&lt;h2 id=&#34;gemma-4-とはどういう意味ですか&#34;&gt;&lt;code&gt;Gemma-4&lt;/code&gt; とはどういう意味ですか?
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Gemma-4&lt;/code&gt; はモデル シリーズと世代を表します。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Gemma&lt;/code&gt;: Google のオープンソース モデル シリーズ&lt;/li&gt;
&lt;li&gt;&lt;code&gt;4&lt;/code&gt;: シリーズの第 4 世代バージョン&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;選び方&#34;&gt;選び方
&lt;/h2&gt;&lt;p&gt;チャット、Q&amp;amp;A、翻訳、またはコードの作成が目的の場合は、通常、&lt;code&gt;-it&lt;/code&gt; を備えたバージョンが推奨されます。&lt;/p&gt;
&lt;p&gt;下位レベルの調査、微調整、またはカスタム トレーニング タスクを実行している場合は、基本バージョンをチェックアウトする可能性が高くなります。&lt;/p&gt;
&lt;h2 id=&#34;一文の要約&#34;&gt;一文の要約
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;gemma-4-31B-it&lt;/code&gt; は、Gemma 4 シリーズ、310 億のパラメーター、ダイアログおよびコマンド タスクに適したバージョンとして直接理解できます。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Llama の GGUF モデルを選択するときの量子化の選択方法: Q8 から Q2 までの実践的な提案</title>
        <link>https://knightli.com/ja/2026/04/11/llama-gguf-quantization-selection/</link>
        <pubDate>Sat, 11 Apr 2026 20:07:29 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/11/llama-gguf-quantization-selection/</guid>
        <description>&lt;p&gt;Hugging Face で Llama の GGUF モデルを選択する場合、まず量子化レベルを「解像度」として理解できます。解像度が低いほど使用する VRAM/RAM は少なくなりますが、品質は徐々に低下します。&lt;/p&gt;
&lt;h2 id=&#34;まずは3216qシリーズについて理解しましょう&#34;&gt;まずは32、16、Qシリーズについて理解しましょう
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;32&lt;/code&gt;: 最高品質のオリジナルの非圧縮バージョンとして理解できますが、ハードウェア要件は非常に高くなります。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;16&lt;/code&gt;: 元の品質に近く、サイズは &lt;code&gt;32&lt;/code&gt; の約半分で、より実用的です。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q8&lt;/code&gt;: ここから量子化バージョンが来ます。通常は &lt;code&gt;Q8_0&lt;/code&gt; または &lt;code&gt;Q8&lt;/code&gt; と書かれます。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6&lt;/code&gt;、&lt;code&gt;Q5&lt;/code&gt;、&lt;code&gt;Q4&lt;/code&gt;、&lt;code&gt;Q3&lt;/code&gt;、&lt;code&gt;Q2&lt;/code&gt;: 数値が小さいほど、リソースの使用量が低くなり、目に見える品質の低下が発生しやすくなります。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;k_m--k_sとは&#34;&gt;&lt;code&gt;K_M&lt;/code&gt; / &lt;code&gt;K_S&lt;/code&gt;とは
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;K_M&lt;/code&gt; および &lt;code&gt;K_S&lt;/code&gt; は、ハイブリッド量子化戦略を表します。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ほとんどの重みは現在の量子化レベルを使用します&lt;/li&gt;
&lt;li&gt;一部の主要部品はより高い精度を維持&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;したがって、同じレベルでは、&lt;code&gt;Qx_K_M&lt;/code&gt; または &lt;code&gt;Qx_K_S&lt;/code&gt; は、通常、純粋な &lt;code&gt;Qx&lt;/code&gt; よりもわずかに優れています。&lt;/p&gt;
&lt;h2 id=&#34;実用的な選択の提案&#34;&gt;実用的な選択の提案
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;十分なハードウェア: 優先順位 &lt;code&gt;Q8&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;ビデオ メモリまたはメモリが不足しています: &lt;code&gt;Q6&lt;/code&gt; / &lt;code&gt;Q5&lt;/code&gt; / &lt;code&gt;Q4&lt;/code&gt; まで段階的にダウンします。&lt;/li&gt;
&lt;li&gt;下限の提案: &lt;code&gt;Q4&lt;/code&gt; を下回らないようにし、&lt;code&gt;Q4_K_M&lt;/code&gt; を優先します。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3&lt;/code&gt; 以下: 品質の低下がますます顕著になります。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;品質の勾配-高から低&#34;&gt;品質の勾配 (高から低)
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;32&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;16&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; この点を超えると、品質は同じですが、ハードウェア要件が非常に高くなります &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q8&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; これが古典的なスイートスポットです &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q4_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; この点を下回ると、品質の低下が顕著になります &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;単純な結論が必要な場合: ほとんどのシナリオでは、&lt;code&gt;Q8&lt;/code&gt; または &lt;code&gt;Q6_K_M&lt;/code&gt; から開始するだけでは十分ではなく、通常は &lt;code&gt;Q5&lt;/code&gt; または &lt;code&gt;Q4_K_M&lt;/code&gt; にダウングレードする方が安全です。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Windows LAN Access Ollama API セットアップ ガイド</title>
        <link>https://knightli.com/ja/2026/04/11/ollama-api-lan-access-windows/</link>
        <pubDate>Sat, 11 Apr 2026 16:43:52 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/11/ollama-api-lan-access-windows/</guid>
        <description>&lt;p&gt;LAN 内の他のデバイスがローカル Ollama API にアクセスできるようにする場合は、次のように設定できます。&lt;/p&gt;
&lt;h2 id=&#34;リスニングポートを設定する&#34;&gt;リスニングポートを設定する
&lt;/h2&gt;&lt;p&gt;まず、Ollama リスニング アドレスをすべてのネットワーク カードに変更します。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;OLLAMA_HOST=0.0.0.0:11434&lt;/code&gt;&lt;/p&gt;
&lt;h2 id=&#34;ファイアウォールを開く&#34;&gt;ファイアウォールを開く
&lt;/h2&gt;&lt;p&gt;詳細なファイアウォール設定を開いた後、新しい受信ルールを作成し、ターゲット ポート (&lt;code&gt;8080&lt;/code&gt; など) を許可します。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Win + S を押して、「Windows Defender ファイアウォール」を検索して開きます。&lt;/li&gt;
&lt;li&gt;「詳細設定」をクリックします。&lt;/li&gt;
&lt;li&gt;「受信ルール」→「新しいルール&amp;hellip;」を選択します。&lt;/li&gt;
&lt;li&gt;ルールの種類として「ポート」を選択し、「次へ」をクリックします。&lt;/li&gt;
&lt;li&gt;プロトコル（通常はTCP）を選択し、「特定のローカルポート」に開放するポート番号（例：&lt;code&gt;8080&lt;/code&gt;）を入力し、「次へ」をクリックします。&lt;/li&gt;
&lt;li&gt;「接続を許可する」を選択し、「次へ」をクリックします。&lt;/li&gt;
&lt;li&gt;「プロファイル」の「ドメイン」「プライベート」「パブリック」にチェックを入れて「次へ」をクリックします。&lt;/li&gt;
&lt;li&gt;ルールに名前を付けて (&lt;code&gt;OpenPort8080&lt;/code&gt; など)、「完了」をクリックします。&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;ランオラマ&#34;&gt;ラン・オラマ
&lt;/h2&gt;&lt;p&gt;オラマランモデル&lt;/p&gt;
&lt;h2 id=&#34;api経由でモデルにアクセス&#34;&gt;API経由でモデルにアクセス
&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;curl http://192.168.x.xxx:11434/api/generate -d &lt;span class=&#34;s1&#34;&gt;&amp;#39;{
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;  &amp;#34;model&amp;#34;: &amp;#34;gemma4&amp;#34;,
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;  &amp;#34;prompt&amp;#34;: &amp;#34;这个是什么模型?&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;}&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;</description>
        </item>
        <item>
        <title>Gemma 4 ローカル通話ガイド: ワンクリック実行から開発統合まで</title>
        <link>https://knightli.com/ja/2026/04/10/gemma4-local-runtime-options/</link>
        <pubDate>Fri, 10 Apr 2026 22:54:17 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/10/gemma4-local-runtime-options/</guid>
        <description>&lt;p&gt;Gemma 4 (2026 年に Google がリリースした新世代のオープンソース モデル) をローカルで呼び出したい場合は、ニーズに応じてこれら 4 種類のソリューションから選択できます。&lt;/p&gt;
&lt;h2 id=&#34;1-最も早く始める-ollama-推奨&#34;&gt;1) 最も早く始める: Ollama (推奨)
&lt;/h2&gt;&lt;p&gt;これは最も障壁の低いアプローチであり、簡単なテスト、日常会話、ローカル API 呼び出しに適しています。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run gemma4
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;特徴：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Win/Mac/Linux で利用可能&lt;/li&gt;
&lt;li&gt;ハードウェアアクセラレーションを自動的に処理します&lt;/li&gt;
&lt;li&gt;OpenAIスタイルに対応したネイティブAPIを提供&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;2-グラフィカルインターフェイス-lm-studio--unsloth-studio&#34;&gt;2) グラフィカルインターフェイス: LM Studio / Unsloth Studio
&lt;/h2&gt;&lt;p&gt;デスクトップ GUI (ChatGPT に似たもの) に慣れている場合は、これら 2 種類のツールの方が便利です。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;LM Studio:Hugging Face で Gemma 4 量子化モデル (4 ビット、8 ビットなど) を直接検索してダウンロードし、リソースの使用状況を表示できます。&lt;/li&gt;
&lt;li&gt;Unsloth Studio: 推論に加えて、低メモリ微調整もサポートしています。 6GB～8GBのビデオメモリを搭載したマシンにさらに優しい。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;3-低構成と究極の制御-llamacpp&#34;&gt;3) 低構成と究極の制御: llama.cpp
&lt;/h2&gt;&lt;p&gt;古いマシン、純粋な CPU シナリオ、または推論パラメーターを詳細に制御したいユーザーに適しています。&lt;/p&gt;
&lt;p&gt;量子化バージョンで &lt;code&gt;.gguf&lt;/code&gt; モデル ファイルを使用すると、より低いハードウェアしきい値で Gemma 4 を実行できます。&lt;/p&gt;
&lt;h2 id=&#34;4-開発統合-transformersvllm&#34;&gt;4) 開発統合: Transformers/vLLM
&lt;/h2&gt;&lt;p&gt;Gemma 4 を独自のアプリケーションに統合したい場合:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Transformers: Python プロジェクトにモデルを直接ロードするのに適しています&lt;/li&gt;
&lt;li&gt;vLLM: 高性能 GPU シナリオおよび高スループット推論サービスに適しています&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;クイック選択&#34;&gt;クイック選択
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;需求&lt;/th&gt;
          &lt;th&gt;推荐工具&lt;/th&gt;
          &lt;th&gt;硬件门槛&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;我只想马上跑起来&lt;/td&gt;
          &lt;td&gt;Ollama&lt;/td&gt;
          &lt;td&gt;低（自动适配）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;我更喜欢图形界面&lt;/td&gt;
          &lt;td&gt;LM Studio&lt;/td&gt;
          &lt;td&gt;中&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;显存很紧张（6GB-8GB）&lt;/td&gt;
          &lt;td&gt;Unsloth / llama.cpp&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;我要做本地 AI 应用开发&lt;/td&gt;
          &lt;td&gt;Ollama / Transformers / vLLM&lt;/td&gt;
          &lt;td&gt;中到高&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;我要做微调训练&lt;/td&gt;
          &lt;td&gt;Unsloth Studio&lt;/td&gt;
          &lt;td&gt;中到高&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;モデルの推奨サイズ&#34;&gt;モデルの推奨サイズ
&lt;/h2&gt;&lt;p&gt;Gemma 4 はさまざまなサイズで利用できます (E2B、E4B、31B など)。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;通常のオフィスのラップトップの場合は、定量化された E2B/E4B が推奨されます。&lt;/li&gt;
&lt;li&gt;ビデオ メモリに余裕がある場合は、より大きなバージョンを試してください。&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Ollama クラウド モデルとは何か、そしてその使用方法</title>
        <link>https://knightli.com/ja/2026/04/09/ollama-cloud-models-guide/</link>
        <pubDate>Thu, 09 Apr 2026 18:42:32 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/09/ollama-cloud-models-guide/</guid>
        <description>&lt;p&gt;普段 &lt;code&gt;Ollama&lt;/code&gt; を使用してローカル モデルを実行している場合は、クラウド モデルを簡単に理解できるはずです。&lt;/p&gt;
&lt;p&gt;主要な相違点は 1 つだけです。&lt;br&gt;
ローカル モデルはユーザーのコンピューター上で推論され、クラウド モデルは Ollama のクラウド上で推論され、結果が返されます。&lt;/p&gt;
&lt;h2 id=&#34;クラウドモデルとは何ですか&#34;&gt;クラウドモデルとは何ですか
&lt;/h2&gt;&lt;p&gt;Ollama クラウド モデルは、Ollama の呼び出し方法を保持しますが、コンピューティングの場所をローカルからクラウドに変更します。&lt;/p&gt;
&lt;p&gt;これを行うことの利点は次のとおりです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ローカルハードウェアへの負担が軽減される&lt;/li&gt;
&lt;li&gt;ローカルマシンでは実行できない大規模なモデルを使いやすくする&lt;/li&gt;
&lt;li&gt;使い慣れた Ollama ワークフローを引き続き使用できます&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;現地モデルとの違い&#34;&gt;現地モデルとの違い
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;对比项&lt;/th&gt;
          &lt;th&gt;本地模型&lt;/th&gt;
          &lt;th&gt;云模型&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;运行位置&lt;/td&gt;
          &lt;td&gt;本机&lt;/td&gt;
          &lt;td&gt;云端&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;硬件要求&lt;/td&gt;
          &lt;td&gt;高&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;延迟&lt;/td&gt;
          &lt;td&gt;更低&lt;/td&gt;
          &lt;td&gt;受网络影响&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;隐私性&lt;/td&gt;
          &lt;td&gt;更强&lt;/td&gt;
          &lt;td&gt;请求会发送到云端&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;プライバシー、低遅延、オフライン使用を重視する場合は、ローカル モデルの方が適しています。&lt;br&gt;
ローカルのハードウェアでは十分ではないが、より大規模なモデルを体験したい場合は、クラウド モデルの方が便利です。&lt;/p&gt;
&lt;h2 id=&#34;クラウドモデルを特定する方法&#34;&gt;クラウドモデルを特定する方法
&lt;/h2&gt;&lt;p&gt;現在の Ollama クラウド モデルには通常、サフィックス &lt;code&gt;-cloud&lt;/code&gt; が付いています。次に例を示します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;gpt-oss:120b-cloud
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;利用可能なモデルのリストは変更される可能性があります。Ollamaの公式ページを参照してください。&lt;/p&gt;
&lt;h2 id=&#34;使用方法&#34;&gt;使用方法
&lt;/h2&gt;&lt;p&gt;まずログインしてください:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama signin
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ログイン後、クラウド モデルを直接実行します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run gpt-oss:120b-cloud
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;コードから呼び出している場合は、API キーを構成することもできます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;OLLAMA_API_KEY&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;your_api_key
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Python の例:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;os&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;ollama&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;Client&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;client&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;Client&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;host&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;https://ollama.com&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;headers&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;Authorization&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;Bearer &amp;#34;&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;+&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;os&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;environ&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;OLLAMA_API_KEY&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;role&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;user&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;为什么天空是蓝色的？&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;for&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;part&lt;/span&gt; &lt;span class=&#34;ow&#34;&gt;in&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;client&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;chat&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;gpt-oss:120b-cloud&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;stream&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;):&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;part&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;message&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;][&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;],&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;end&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;flush&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;p&gt;Ollama クラウド モデルは、次の一文で理解できます。&lt;/p&gt;
&lt;p&gt;コマンドは基本的に同じままですが、モデルはローカルで実行されなくなります。&lt;/p&gt;
&lt;p&gt;コンピューターで大規模なモデルを実行できないが、引き続き Ollama を使用してモデルを呼び出したい場合、クラウド モデルは非常に簡単なソリューションです。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Hugging Face から GGUF モデルをダウンロードし、Ollama にインポートします。</title>
        <link>https://knightli.com/ja/2026/04/09/import-huggingface-gguf-into-ollama/</link>
        <pubDate>Thu, 09 Apr 2026 11:00:07 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/09/import-huggingface-gguf-into-ollama/</guid>
        <description>&lt;p&gt;モデルの公式 Ollama ライブラリに既製バージョンがない場合、または Hugging Face で特定の &lt;code&gt;GGUF&lt;/code&gt; ファイルを使用したい場合は、手動でダウンロードして Ollama にインポートできます。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-1-hugging-face-から-gguf-ファイルをダウンロードする&#34;&gt;ステップ 1: Hugging Face から GGUF ファイルをダウンロードする
&lt;/h2&gt;&lt;p&gt;まず、Hugging Face で対象モデルに対応する &lt;code&gt;GGUF&lt;/code&gt; ファイルを見つけます。次のような複数の量子化バージョンが表示されるのが一般的です。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;どのバージョンを選択するかは、ビデオ メモリ、メモリ、速度と品質の選択によって異なります。ダウンロード後、&lt;code&gt;.gguf&lt;/code&gt; ファイルを固定ディレクトリに置き、後で &lt;code&gt;Modelfile&lt;/code&gt; で直接参照します。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-2-モデルファイルを作成する&#34;&gt;ステップ 2: モデルファイルを作成する
&lt;/h2&gt;&lt;p&gt;モデル ファイルと同じディレクトリに新しい &lt;code&gt;Modelfile&lt;/code&gt; を作成します。最も基本的な書き方は次のとおりです。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;FROM ./model.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ファイル名が異なる場合は、次のように実際のファイル名に変更します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;FROM ./gemma-3-12b-it-q4_k_m.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;最初に実行したいだけの場合は、通常、&lt;code&gt;FROM&lt;/code&gt; 行で十分です。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-3-ollama-にインポートする&#34;&gt;ステップ 3: Ollama にインポートする
&lt;/h2&gt;&lt;p&gt;次に、以下を実行します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama create myModelName -f Modelfile
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;myModelName&lt;/code&gt; は、Ollama で使用するローカル モデル名です。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-f Modelfile&lt;/code&gt; は、この構成ファイルからモデルを作成することを意味します&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;作成が成功すると、この GGUF ファイルは直接呼び出すことができるローカル モデルになります。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-4-モデルを実行する&#34;&gt;ステップ 4: モデルを実行する
&lt;/h2&gt;&lt;p&gt;作成後に直接実行します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run myModelName
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;以降の使い方は基本的に&lt;code&gt;ollama pull&lt;/code&gt;のモデルと同じです。&lt;/p&gt;
&lt;h2 id=&#34;既存のモデルのモデルファイルを表示する方法&#34;&gt;既存のモデルのモデルファイルを表示する方法
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Modelfile&lt;/code&gt; の書き方がわからない場合は、既存のモデルの構成を直接表示できます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama show --modelfile llama3.2
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;このコマンドは、参照に適した &lt;code&gt;llama3.2&lt;/code&gt; の &lt;code&gt;Modelfile&lt;/code&gt; コンテンツを出力します。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;FROM&lt;/code&gt;の書き方&lt;/li&gt;
&lt;li&gt;テンプレートとシステム プロンプトはどのように構成されていますか?&lt;/li&gt;
&lt;li&gt;パラメータの宣言方法&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;このルートを使用するのが適切なのはどのような場合ですか&#34;&gt;このルートを使用するのが適切なのはどのような場合ですか?
&lt;/h2&gt;&lt;p&gt;次のシナリオは、Hugging Face からの手動インポートに適しています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;必要なモデルは、公式 Ollama ライブラリではまだ利用できません。&lt;/li&gt;
&lt;li&gt;特定の量子化バージョンを使用したい場合&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GGUF&lt;/code&gt; ファイルを手動でダウンロードしました&lt;/li&gt;
&lt;li&gt;モデルのパッケージ化方法をよりきめ細かく制御したい&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;公式ライブラリに既製のバージョンがある場合は、通常、&lt;code&gt;pull&lt;/code&gt; を直接使用する方が簡単です。ただし、特定の量子化やカスタム パッケージングが必要な場合は、&lt;code&gt;GGUF + Modelfile&lt;/code&gt; の方がより柔軟です。&lt;/p&gt;
&lt;h2 id=&#34;共通の注意点&#34;&gt;共通の注意点
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;FROM&lt;/code&gt; の後のパスは、実際の &lt;code&gt;.gguf&lt;/code&gt; ファイルの場所と一致している必要があります。&lt;/li&gt;
&lt;li&gt;ファイル名にスペースや特殊文字が含まれている場合は、最初に簡単な名前に変更することをお勧めします。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GGUF&lt;/code&gt; の量子化バージョンが異なると、メモリと速度に大きな影響を与えます。インポートが成功しても、操作がスムーズに行われるとは限りません。&lt;/li&gt;
&lt;li&gt;モデルがチャット モデルの場合、効果がより安定するように、後でその形式に応じてプロンプト テンプレートを調整する必要があります。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;結論は&#34;&gt;結論は
&lt;/h2&gt;&lt;p&gt;Hugging Face から &lt;code&gt;GGUF&lt;/code&gt; ファイルをダウンロードして Ollama にインポートするのは複雑ではありません。モデル ファイルを準備し、使用可能な最小限の &lt;code&gt;Modelfile&lt;/code&gt; を書き込み、その後 &lt;code&gt;ollama create&lt;/code&gt; を実行してサードパーティの &lt;code&gt;GGUF&lt;/code&gt; モデルを Ollama に接続します。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Ollama ダウンロード モデルのプル速度が遅い場合のトラブルシューティングと解決策</title>
        <link>https://knightli.com/ja/2026/04/09/ollama-download-slow-troubleshooting/</link>
        <pubDate>Thu, 09 Apr 2026 10:42:39 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/09/ollama-download-slow-troubleshooting/</guid>
        <description>&lt;p&gt;&lt;code&gt;ollama pull model_name:tag&lt;/code&gt; 一部の地域ではダウンロード速度が非常に遅くなり、プロセスが安定しません。&lt;/p&gt;
&lt;p&gt;大きなモデルのダウンロード中に繰り返し中断が発生し、&lt;code&gt;TLS handshake timeout&lt;/code&gt; または &lt;code&gt;unexpected EOF&lt;/code&gt; のエラー メッセージが表示される場合は、おそらく &lt;code&gt;registry.ollama.ai&lt;/code&gt; 自体だけでなく、その後にジャンプされる実際のダウンロード リンクに問題があると考えられます。&lt;/p&gt;
&lt;p&gt;この記事では、シンプルかつ直接的なトラブルシューティングのアイデアを記録します。最初にモデル ファイルの実際のダウンロード アドレスを取得し、次に最終的なトラフィックがどこに落ちるかを確認し、最後に主要なドメイン名に対してのみネットワークの最適化を実行します。&lt;/p&gt;
&lt;h2 id=&#34;モデルファイルのダウンロードアドレスを取得する&#34;&gt;モデルファイルのダウンロードアドレスを取得する
&lt;/h2&gt;&lt;p&gt;次のプロジェクトを使用して、Ollama モデルに対応するマニフェストと BLOB のダウンロード アドレスを直接抽出できます。&lt;/p&gt;
&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/Gholamrezadar/ollama-direct-downloader&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/Gholamrezadar/ollama-direct-downloader&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;code&gt;gemma4:latest&lt;/code&gt; を例として、次のようなリンクを抽出できます。&lt;/p&gt;
&lt;h3 id=&#34;マニフェストアドレス&#34;&gt;マニフェストアドレス
&lt;/h3&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;https://registry.ollama.ai/v2/library/gemma4/manifests/latest
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h3 id=&#34;blob-アドレス&#34;&gt;BLOB アドレス
&lt;/h3&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:56380ca2ab89f1f68c283f4d50863c0bcab52ae3f1b9a88e4ab5617b176f71a3
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;すぐに確認したいだけの場合は、&lt;code&gt;curl&lt;/code&gt; を直接使用してマニフェストと BLOB をダウンロードすることもできます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;curl -L &lt;span class=&#34;s2&#34;&gt;&amp;#34;https://registry.ollama.ai/v2/library/gemma4/manifests/latest&amp;#34;&lt;/span&gt; -o &lt;span class=&#34;s2&#34;&gt;&amp;#34;latest&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;curl -L &lt;span class=&#34;s2&#34;&gt;&amp;#34;https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11&amp;#34;&lt;/span&gt; -o &lt;span class=&#34;s2&#34;&gt;&amp;#34;sha256-f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;curl -L &lt;span class=&#34;s2&#34;&gt;&amp;#34;https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a&amp;#34;&lt;/span&gt; -o &lt;span class=&#34;s2&#34;&gt;&amp;#34;sha256-4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;curl -L &lt;span class=&#34;s2&#34;&gt;&amp;#34;https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2&amp;#34;&lt;/span&gt; -o &lt;span class=&#34;s2&#34;&gt;&amp;#34;sha256-7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;ジャンプ後の実際のダウンロード-アドレス&#34;&gt;ジャンプ後の実際のダウンロード アドレス
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;wget&lt;/code&gt; を使用して BLOB の 1 つをダウンロードしてみてください。リクエストは &lt;code&gt;registry.ollama.ai&lt;/code&gt; にとどまらず、引き続き &lt;code&gt;Cloudflare R2&lt;/code&gt; オブジェクト ストレージ アドレスにジャンプしていることがわかります。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;wget https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--2026-04-09 09:22:04--  https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Resolving registry.ollama.ai &lt;span class=&#34;o&#34;&gt;(&lt;/span&gt;registry.ollama.ai&lt;span class=&#34;o&#34;&gt;)&lt;/span&gt;... 104.21.75.227, 172.67.182.229, 2606:4700:3034::ac43:b6e5, ...
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Connecting to registry.ollama.ai &lt;span class=&#34;o&#34;&gt;(&lt;/span&gt;registry.ollama.ai&lt;span class=&#34;o&#34;&gt;)&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;|&lt;/span&gt;104.21.75.227&lt;span class=&#34;p&#34;&gt;|&lt;/span&gt;:443... connected.
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;HTTP request sent, awaiting response... &lt;span class=&#34;m&#34;&gt;307&lt;/span&gt; Temporary Redirect
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Location: https://dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com/ollama/docker/registry/v2/blobs/sha256/4c/4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a/data?... &lt;span class=&#34;o&#34;&gt;[&lt;/span&gt;following&lt;span class=&#34;o&#34;&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--2026-04-09 09:22:05--  https://dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com/ollama/docker/registry/v2/blobs/sha256/4c/4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a/data?...
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Resolving dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com &lt;span class=&#34;o&#34;&gt;(&lt;/span&gt;dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com&lt;span class=&#34;o&#34;&gt;)&lt;/span&gt;... 172.64.66.1, 2606:4700:2ff9::1
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Connecting to dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com&lt;span class=&#34;p&#34;&gt;|&lt;/span&gt;172.64.66.1&lt;span class=&#34;p&#34;&gt;|&lt;/span&gt;:443... connected.
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;HTTP request sent, awaiting response... &lt;span class=&#34;m&#34;&gt;200&lt;/span&gt; OK
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Length: &lt;span class=&#34;m&#34;&gt;9608338848&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;(&lt;/span&gt;8.9G&lt;span class=&#34;o&#34;&gt;)&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;[&lt;/span&gt;application/octet-stream&lt;span class=&#34;o&#34;&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ログからいくつかの重要な情報を確認できます。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;registry.ollama.ai&lt;/code&gt; が &lt;code&gt;307 Temporary Redirect&lt;/code&gt; を返しました&lt;/li&gt;
&lt;li&gt;最終的なダウンロード アドレスは &lt;code&gt;*.r2.cloudflarestorage.com&lt;/code&gt; になります。&lt;/li&gt;
&lt;li&gt;大きなファイルの送信を実際に実行しているのは、実際にはその背後にあるオブジェクト ストレージ ドメイン名です。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;この手順は、プロキシまたは転送ルールが &lt;code&gt;registry.ollama.ai&lt;/code&gt; のみをカバーし、&lt;code&gt;*.r2.cloudflarestorage.com&lt;/code&gt; を処理しない場合、ダウンロードが依然として遅くなるか、繰り返し中断される可能性があることを意味するため、重要です。&lt;/p&gt;
&lt;h2 id=&#34;ネットワーク設定を調整する&#34;&gt;ネットワーク設定を調整する
&lt;/h2&gt;&lt;p&gt;実際のダウンロード リンクを確認すると、トラブルシューティングの方向性がより明確になります。&lt;/p&gt;
&lt;p&gt;プロキシ、オフロード、またはカスタム DNS を使用している場合は、最初に次のことを確認することをお勧めします。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;registry.ollama.ai&lt;/code&gt; と &lt;code&gt;*.r2.cloudflarestorage.com&lt;/code&gt; は同じ安定したルートをたどりましたか?&lt;/li&gt;
&lt;li&gt;プロキシ ルールは前者のみをカバーし、後者は除外しますか?&lt;/li&gt;
&lt;li&gt;現在のエクスポートは、数ギガバイトから数十ギガバイトまでの大きなファイルを継続的にダウンロードするのに適していますか?&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;この種の問題の鍵は、「公式サイトが開設できるかどうか」ではなく、「ジャンプ後のオブジェクトストレージリンクが安定し、長時間送信し続けられるかどうか」である。多くの場合、本当に最適化する必要があるのは、以前のレジストリ ドメイン名ではなく、&lt;code&gt;Cloudflare R2&lt;/code&gt; レイヤーです。&lt;/p&gt;
&lt;h2 id=&#34;調整前と調整後の比較&#34;&gt;調整前と調整後の比較
&lt;/h2&gt;&lt;p&gt;以下は、実際に &lt;code&gt;gemma4:31b-it-q8_0&lt;/code&gt; をダウンロードした場合のパフォーマンスです。&lt;/p&gt;
&lt;p&gt;調整前はダウンロード速度が遅く、途中でエラーが報告されていました。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;PS C:\Users\knightli&amp;gt; ollama run gemma4:31b-it-q8_0
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pulling manifest
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pulling a0feadb736f5:  38% ▕██████████████████████                                    ▏  12 GB/ 33 GB  1.2 MB/s   4h40m
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Error: max retries exceeded: unexpected EOF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;調整後、同じモデルを再度ダウンロードすると、速度と安定性が大幅に向上しました。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;PS C:\Users\knightli&amp;gt; ollama run gemma4:31b-it-q8_0
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pulling manifest
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pulling a0feadb736f5:  46% ▕████████████████████████████████████████████████████████████████▏ 15 GB/ 33 GB  8.5 MB/s  35m23s
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;これは、すべてのネットワーク環境で同じ結果が得られるという意味ではありませんが、少なくとも 1 つの点を示しています。ボトルネックは Ollama クライアント自体ではなく、実際の大きなファイルのダウンロード リンクにある可能性が高いということです。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Gemma 4 を実行している Raspberry Pi 5 の実際のテスト: 実行可能ですが、応答が遅い</title>
        <link>https://knightli.com/ja/2026/04/08/gemma4-on-raspberry-pi5-benchmark/</link>
        <pubDate>Wed, 08 Apr 2026 18:42:00 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/08/gemma4-on-raspberry-pi5-benchmark/</guid>
        <description>&lt;p&gt;極端な試み: &lt;code&gt;Raspberry Pi 5（8GB RAM）&lt;/code&gt; で Gemma 4 を実行します。目標は、大規模なモデル バージョンではなく、&lt;code&gt;E2B&lt;/code&gt; の最小バージョンです。&lt;/p&gt;
&lt;p&gt;結論から始めましょう。実行して使用することはできますが、対話頻度の低いシナリオに適しており、リアルタイム要件の高い対話エクスペリエンスには適していません。&lt;/p&gt;
&lt;h2 id=&#34;テスト環境&#34;&gt;テスト環境
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;デバイス: Raspberry Pi 5 (4コアCPU、8GB RAM)&lt;/li&gt;
&lt;li&gt;システム: Ubuntu サーバー (グラフィカル インターフェイスなし)&lt;/li&gt;
&lt;li&gt;アクセス方法：SSH&lt;/li&gt;
&lt;li&gt;モデルの実行方法: LM Studio CLI (コマンドラインモードのみ)&lt;/li&gt;
&lt;li&gt;モデル：Gemma 4 E2B (約4.5GB)&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;ステップ-1-lm-studio-cli-をインストールして起動する&#34;&gt;ステップ 1: LM Studio CLI をインストールして起動する
&lt;/h2&gt;&lt;p&gt;LM Studio の CLI バージョンをインストールし、サービスを開始して、使用可能なコマンドを確認します。&lt;/p&gt;
&lt;p&gt;これは純粋なコマンド ライン環境であるため、このコマンド ラインのみの展開方法は Raspberry Pi に非常に適しています。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-2-モデルのストレージを-ssd-に切り替える&#34;&gt;ステップ 2: モデルのストレージを SSD に切り替える
&lt;/h2&gt;&lt;p&gt;SDカードの頻繁な読み書きを避けるため、モデルのダウンロードディレクトリを外付けSSDに変更しました。&lt;/p&gt;
&lt;p&gt;SSD を Raspberry Pi 5 に接続する体験は、明らかに以前のモデルよりも実用的です。長期的なローカル モデルでは、最初に SSD を使用することをお勧めします。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-3-gemma-4-e2b-をダウンロードしてロードする&#34;&gt;ステップ 3: Gemma 4 E2B をダウンロードしてロードする
&lt;/h2&gt;&lt;p&gt;ダウンロードが完了すると、モデルをメモリに正常にロードできるようになります。&lt;/p&gt;
&lt;p&gt;公式情報によると、Gemma 4 シリーズには次の機能があります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;エージェントシナリオのツール呼び出し機能 (関数呼び出し)&lt;/li&gt;
&lt;li&gt;マルチモーダル機能 (画像/ビデオを含む。小型モデルには音声関連機能もある)&lt;/li&gt;
&lt;li&gt;&lt;code&gt;128K&lt;/code&gt; コンテキスト ウィンドウ&lt;/li&gt;
&lt;li&gt;Apache 2.0 ライセンス (商用利用可能)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Raspberry Pi のハードウェア条件から判断すると、最初に試すには E2B レベルの方が適しています。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-4-api-を開始して-lan-アクセスを開く&#34;&gt;ステップ 4: API を開始して LAN アクセスを開く
&lt;/h2&gt;&lt;p&gt;モデルがロードされた後、まずローカル ポートで API (&lt;code&gt;4000&lt;/code&gt;) を開始し、HTTP リクエストを通じてモデル リストが返されることを確認します。&lt;/p&gt;
&lt;p&gt;問題は、デフォルトではこのマシンのみを監視し、LAN 上の他のデバイスは直接アクセスできないことです。&lt;/p&gt;
&lt;p&gt;起動パラメータでホストを直接設定できないため、ポート転送に &lt;code&gt;socat&lt;/code&gt; を使用して、Raspberry Pi の外部ポート要求を LM Studio の内部ポートにブリッジし、LAN アクセスを実現しました。&lt;/p&gt;
&lt;p&gt;結果はうまくいきました。同じ LAN 上の MacBook 上のモデルのリストを正常にリクエストして取得することができました。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-5-エディター-zed-にアクセスします&#34;&gt;ステップ 5: エディター (Zed) にアクセスします。
&lt;/h2&gt;&lt;p&gt;LM Studio のローカル サービスは OpenAI API フォームと互換性があるため、カスタム &lt;code&gt;base_url&lt;/code&gt; をサポートするほとんどのツールに直接アクセスできます。&lt;/p&gt;
&lt;p&gt;Raspberry Pi 上の Gemma 4 インスタンスを指す新しい LLM プロバイダーを Zed に追加したところ、エディターでのチャット テストに合格しました。&lt;/p&gt;
&lt;h2 id=&#34;実際の使用感の判断&#34;&gt;実際の使用感の判断
&lt;/h2&gt;&lt;p&gt;このパッケージは次の用途に適しています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ローカルオートメーションスクリプト&lt;/li&gt;
&lt;li&gt;同時実行性とリアルタイム要件が低い補助タスク&lt;/li&gt;
&lt;li&gt;個人学習とエッジデバイスの実験&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;以下にはあまり適していません:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;高頻度の対話型チャット&lt;/li&gt;
&lt;li&gt;応答遅延の影響を受けやすい開発コラボレーション シナリオ&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;結論は&#34;&gt;結論は
&lt;/h2&gt;&lt;p&gt;Gemma 4 (E2B) を &lt;code&gt;Raspberry Pi 5&lt;/code&gt; で実行することは実現可能で、予想よりもうまく機能します。&lt;/p&gt;
&lt;p&gt;オフラインで実行し、ツールを入手し、軽度および中度のタスクを完了できるようにすることが目標である場合、このルートは試してみる価値があります。スムーズなリアルタイム インタラクションが目標の場合でも、より強力なハードウェアを入手することをお勧めします。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>OpenClaw とローカル Gemma 4 のドッキング: 完全な構成ガイド</title>
        <link>https://knightli.com/ja/2026/04/08/openclaw-connect-gemma4-local/</link>
        <pubDate>Wed, 08 Apr 2026 18:18:00 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/08/openclaw-connect-gemma4-local/</guid>
        <description>&lt;p&gt;この記事では、&lt;code&gt;OpenClaw&lt;/code&gt; をローカル &lt;code&gt;Gemma 4&lt;/code&gt; モデル (&lt;code&gt;Ollama&lt;/code&gt; を通じて提供されるインターフェイス) に接続する方法を説明します。&lt;/p&gt;
&lt;p&gt;ローカル展開が完了していない場合は、以下を参照してください。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://knightli.com/ja/2026/04/08/run-gemma4-on-laptop/&#34; &gt;如何在笔记本电脑上运行 Gemma 4：5 分钟本地部署指南&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;ステップ-1-ollama-api-サービスを開始する&#34;&gt;ステップ 1: Ollama API サービスを開始する
&lt;/h2&gt;&lt;p&gt;まず Ollama サービスを開始します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;次のコマンドを使用して、API が適切に動作しているかどうかを簡単にテストできます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;curl http://localhost:11434/api/generate -d &lt;span class=&#34;s1&#34;&gt;&amp;#39;{
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;  &amp;#34;model&amp;#34;: &amp;#34;gemma4:12b&amp;#34;,
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;  &amp;#34;prompt&amp;#34;: &amp;#34;你好&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;}&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;モデル出力を返すことができる場合は、ローカル API が使用可能です。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-2-ollama-に接続するように-openclaw-を構成する&#34;&gt;ステップ 2: Ollama に接続するように OpenClaw を構成する
&lt;/h2&gt;&lt;p&gt;OpenClaw 構成ファイルのパスは通常次のとおりです。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;~/.openclaw/config.yaml
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;code&gt;config.yaml&lt;/code&gt; を編集し、ローカル モデル エントリを &lt;code&gt;models&lt;/code&gt; に追加します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;8
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-yaml&#34; data-lang=&#34;yaml&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nt&#34;&gt;models&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;w&#34;&gt;  &lt;/span&gt;&lt;span class=&#34;c&#34;&gt;# 你已有的模型配置...&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;w&#34;&gt;  &lt;/span&gt;&lt;span class=&#34;nt&#34;&gt;gemma4-local&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;w&#34;&gt;    &lt;/span&gt;&lt;span class=&#34;nt&#34;&gt;provider&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;l&#34;&gt;ollama&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;w&#34;&gt;    &lt;/span&gt;&lt;span class=&#34;nt&#34;&gt;base_url&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;l&#34;&gt;http://localhost:11434&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;w&#34;&gt;    &lt;/span&gt;&lt;span class=&#34;nt&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;l&#34;&gt;gemma4:12b&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;w&#34;&gt;    &lt;/span&gt;&lt;span class=&#34;nt&#34;&gt;timeout&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;l&#34;&gt;120s&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;ステップ-3-デフォルトのモデルを設定する-オプション&#34;&gt;ステップ 3: デフォルトのモデルを設定する (オプション)
&lt;/h2&gt;&lt;p&gt;Gemma 4 をデフォルトで使用する場合は、以下を追加できます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-yaml&#34; data-lang=&#34;yaml&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nt&#34;&gt;default_model&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;l&#34;&gt;gemma4-local&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;ステップ-4-openclaw-を再起動して確認する&#34;&gt;ステップ 4: OpenClaw を再起動して確認する
&lt;/h2&gt;&lt;p&gt;OpenClaw を再起動します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;openclaw restart
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;モデルのリストを表示します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;openclaw models list
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;会話テストを開始します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;openclaw chat --model gemma4-local &lt;span class=&#34;s2&#34;&gt;&amp;#34;你好&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ダイアログが正常に戻った場合、OpenClaw はローカル Gemma 4 に正常に接続されています。&lt;/p&gt;
&lt;h2 id=&#34;一般的なトラブルシューティング&#34;&gt;一般的なトラブルシューティング
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;connection refused&lt;/code&gt;: まず、&lt;code&gt;ollama serve&lt;/code&gt; が実行されているかどうかを確認します。&lt;/li&gt;
&lt;li&gt;モデルが見つかりません: モデル名が &lt;code&gt;ollama list&lt;/code&gt; (たとえば、&lt;code&gt;gemma4:12b&lt;/code&gt;) と一致しているかどうかを確認します。&lt;/li&gt;
&lt;li&gt;応答タイムアウト: &lt;code&gt;timeout&lt;/code&gt; は適切に増やすことができ、小さいモデルを最初にテストする必要があります。&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>ラップトップで Gemma 4 を実行する方法: 5 分間のローカル導入ガイド</title>
        <link>https://knightli.com/ja/2026/04/08/run-gemma4-on-laptop/</link>
        <pubDate>Wed, 08 Apr 2026 18:06:00 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/08/run-gemma4-on-laptop/</guid>
        <description>&lt;p&gt;Gemma 4 をラップトップ上でローカルに実行したい場合、現時点では &lt;code&gt;Ollama&lt;/code&gt; が最も手間のかからない方法の 1 つです。複雑な環境をいじらなくても、通常は 5 分程度で実行できます。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-1-ollama-をインストールする&#34;&gt;ステップ 1: Ollama をインストールする
&lt;/h2&gt;&lt;ol&gt;
&lt;li&gt;&lt;code&gt;https://ollama.com&lt;/code&gt; を開き、対応するシステムのインストール パッケージをダウンロードします。&lt;/li&gt;
&lt;li&gt;システムごとにインストールを完了します。&lt;/li&gt;
&lt;/ol&gt;
&lt;ul&gt;
&lt;li&gt;macOS: &lt;code&gt;Applications&lt;/code&gt; にドラッグします。&lt;/li&gt;
&lt;li&gt;Windows: &lt;code&gt;.exe&lt;/code&gt; インストーラーを実行します。&lt;/li&gt;
&lt;li&gt;Linux: 公式 Web サイトで提供されているインストール スクリプトを使用します。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;インストールすると、Ollama はバックグラウンド サービスとして実行されます。初期インストールを除き、毎日簡単なコマンドのみを使用できます。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-2-gemma-4-モデルをダウンロードする&#34;&gt;ステップ 2: Gemma 4 モデルをダウンロードする
&lt;/h2&gt;&lt;p&gt;ターミナルを開いて次を実行します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama pull gemma4:4b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;マシンのパフォーマンスが高い場合は、&lt;code&gt;12b&lt;/code&gt; または &lt;code&gt;27b&lt;/code&gt; に変更できます。ダウンロードが完了すると、モデルはローカルに保存されます。&lt;/p&gt;
&lt;p&gt;ダウンロードしたモデルを表示します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama list
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;ステップ-3-モデルを起動する&#34;&gt;ステップ 3: モデルを起動する
&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run gemma4:4b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;これにより、ターミナルで対話型セッションが開きます。質問を入力して Enter キーを押すだけです。セッションを終了するには、次のように入力します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;/bye
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Web チャット インターフェイスを希望する場合は、&lt;code&gt;Open WebUI&lt;/code&gt; とともに使用できます。 Ollama をブラウザ側 UI にラップできます。これは通常、Docker を通じて数分で構成できます。&lt;/p&gt;
&lt;h2 id=&#34;ラップトップのパフォーマンス最適化に関する提案&#34;&gt;ラップトップのパフォーマンス最適化に関する提案
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Apple Silicon (M2/M3/M4): デフォルトでは金属が使用されており、通常、加速効果は非常に優れています。 &lt;code&gt;12B&lt;/code&gt; も良い経験をしています。&lt;/li&gt;
&lt;li&gt;NVIDIA グラフィックス カード: 互換性のある GPU が検出されると、CUDA が自動的に使用されます。事前にドライバーをアップデートすることをお勧めします。&lt;/li&gt;
&lt;li&gt;CPU のみの推論: 実行できますが、大規模なモデルは大幅に遅くなります。ほとんどの CPU のみのシナリオでは、&lt;code&gt;4B&lt;/code&gt; を優先することをお勧めします。&lt;/li&gt;
&lt;li&gt;メモリを解放する: 大きなモデルをロードする前に、メモリを消費するアプリケーションを閉じるようにしてください。経験則として、10 億パラメータごとに約 &lt;code&gt;0.5GB 到 1GB&lt;/code&gt; のメモリが必要です。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;モデルの選び方&#34;&gt;モデルの選び方
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Gemma 4 1B&lt;/code&gt;: 軽量の Q&amp;amp;A、基本的な要約、および高速なクエリに適しています。複雑な推論能力には限界があります。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Gemma 4 4B&lt;/code&gt;: 速度と品質のバランスが取れており、ほとんどの日常タスク (書き込み支援、コード支援、データ要約) に適しています。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Gemma 4 12B&lt;/code&gt;: より長いコンテキストとより複雑なタスクに適しており、コーディングと推論のシナリオでより安定しています。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Gemma 4 27B&lt;/code&gt;: 需要の高いタスクに適しており、効果はクラウド大規模モデルに近いですが、ハードウェア要件は大幅に高くなります。&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Android での Gemma 4 のインストールと実行: 開始するための完全なガイド</title>
        <link>https://knightli.com/ja/2026/04/08/android-gemma4-install-run-guide/</link>
        <pubDate>Wed, 08 Apr 2026 17:55:53 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/08/android-gemma4-install-run-guide/</guid>
        <description>&lt;p&gt;携帯電話で Gemma 4 をオフラインで体験したい場合は、この記事でインストールから実際の機能までを段階的に説明します。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-1-アプリを入手する&#34;&gt;ステップ 1: アプリを入手する
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Google AI Edge Gallery&lt;/code&gt; は現在 Google Play では利用できないため、APK サイドローディング経由でインストールする必要があります。&lt;/p&gt;
&lt;p&gt;Android デバイスで次のように入力します。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;设置 -&amp;gt; 应用 -&amp;gt; 特殊应用权限 -&amp;gt; 安装未知应用&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;それから：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;使用しているブラウザ (Chrome や Firefox など) を見つけて、[このソースからの許可] をオンにします。&lt;/li&gt;
&lt;li&gt;モバイル ブラウザで &lt;code&gt;Google AI Edge Gallery&lt;/code&gt; の GitHub リリース ページを開きます。&lt;/li&gt;
&lt;/ol&gt;
&lt;ul&gt;
&lt;li&gt;アドレス: &lt;a class=&#34;link&#34; href=&#34;https://github.com/google-ai-edge/gallery/releases&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/google-ai-edge/gallery/releases&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;ol start=&#34;3&#34;&gt;
&lt;li&gt;最新の &lt;code&gt;.apk&lt;/code&gt; インストール パッケージをダウンロードします。&lt;/li&gt;
&lt;li&gt;ダウンロードが完了したら、通知バーまたはファイル マネージャーでインストール パッケージをクリックし、プロンプトに従ってインストールを完了します。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;ネットワークが正常な場合、この手順は通常、完了するまでに約 2 分かかります。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-2-初めて開いて認証する&#34;&gt;ステップ 2: 初めて開いて認証する
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;AI Edge Gallery&lt;/code&gt; を初めて開くと、アプリケーションはモデル ファイルを保存するためのストレージ アクセス許可を要求します。直接許可することをお勧めします。許可しない場合、アプリケーションはモデルをダウンロードまたはロードできません。&lt;/p&gt;
&lt;p&gt;通常、ホームページには次の入り口が表示されます。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Ask Image&lt;/code&gt;: 画像理解タスク (画像の説明、画像に関する質問に答える)&lt;/li&gt;
&lt;li&gt;&lt;code&gt;AI Chat&lt;/code&gt;: 通常のテキスト会話&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Summarize&lt;/code&gt;: テキストを貼り付けて概要を生成します&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Smart Reply&lt;/code&gt;: 返信候補の生成&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ほとんどのユーザーが最もよく使用するのは &lt;code&gt;AI Chat&lt;/code&gt; です。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-3-gemma-4-モデルをダウンロードする&#34;&gt;ステップ 3: Gemma 4 モデルをダウンロードする
&lt;/h2&gt;&lt;ol&gt;
&lt;li&gt;「&lt;code&gt;AI Chat&lt;/code&gt;」と入力します。&lt;/li&gt;
&lt;li&gt;プロンプトに従って「&lt;code&gt;Get Models&lt;/code&gt;」をクリックします。&lt;/li&gt;
&lt;li&gt;モデルリストで Gemma 4 バージョンを選択します (対応するボリュームが表示されます)。&lt;/li&gt;
&lt;li&gt;デバイスの性能に応じてモデルを選択します。電話機が &lt;code&gt;8GB RAM&lt;/code&gt; の場合は、最初に &lt;code&gt;Gemma 4 4B&lt;/code&gt; から開始できます。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Download&lt;/code&gt; をクリックすると、バックグラウンドでダウンロードが開始されます。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;注: モデルが大きいほど、ダウンロード時間は長くなります。複数のモデルをダウンロードし、必要に応じて後で切り替えることもできます。ダウンロードしたモデルはローカルに保存されるため、再度ダウンロードする必要はありません。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-4-会話を開始する&#34;&gt;ステップ 4: 会話を開始する
&lt;/h2&gt;&lt;p&gt;モデルのダウンロードが完了したら、次のようにします。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;モデル名をクリックしてロードします (モデルのサイズとデバイスの機能に応じて、最初のロードには通常 10 ～ 30 秒かかります)。&lt;/li&gt;
&lt;li&gt;チャット ボックスに質問を入力して送信してください。&lt;/li&gt;
&lt;li&gt;モデルはローカルで応答を生成し、データはクラウドにアップロードされません。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;一般に、最初の応答はわずかに遅くなりますが、これはモデルがウォームアップするときの正常な現象です。通常、同じセッション内での後続の応答はより速くなります。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-5-ビジュアル機能を体験する-gemma-4-マルチモーダル&#34;&gt;ステップ 5: ビジュアル機能を体験する (Gemma 4 マルチモーダル)
&lt;/h2&gt;&lt;p&gt;Gemma 4 マルチモーダル バージョンをダウンロードした場合:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;メインメニューに戻り、「&lt;code&gt;Ask Image&lt;/code&gt;」と入力します。&lt;/li&gt;
&lt;li&gt;写真を選択するか、直接写真を撮ります。&lt;/li&gt;
&lt;li&gt;尋ねたい質問を入力します (たとえば、「この写真には何が写っていますか?」または「この写真のどのテキストに注意を払う必要がありますか?」)。&lt;/li&gt;
&lt;li&gt;モデルがローカルで分析され、結果が返されるまで待ちます。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;この機能はオフラインで動作し、画像コンテンツは外部サーバーに送信されません。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Google Gemma 4 モデル比較: 2B/4B/26B/31B 選び方は?</title>
        <link>https://knightli.com/ja/2026/04/05/google-gemma-4-model-comparison/</link>
        <pubDate>Sun, 05 Apr 2026 08:30:00 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/05/google-gemma-4-model-comparison/</guid>
        <description>&lt;p&gt;Gemma 4 は、&lt;code&gt;多模态&lt;/code&gt; と &lt;code&gt;本地离线运行&lt;/code&gt; に焦点を当てており、軽量エンドから高性能エンドまでの完全なモデル グラデーションを提供します。ほとんどのローカル展開ユーザーにとって重要なのは、「最大のものを選択する」ことではなく、「ハードウェアとタスクに最適なバージョンを選択する」ことです。&lt;/p&gt;
&lt;h2 id=&#34;gemma-4-モデルの比較&#34;&gt;Gemma 4 モデルの比較
&lt;/h2&gt;&lt;blockquote&gt;
&lt;p&gt;次の表は、選択を簡単に参照できるようにしたものです。具体的なパフォーマンスとリソースの使用状況については、実際の展開環境のテストを参照してください。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模型&lt;/th&gt;
          &lt;th&gt;参数规模&lt;/th&gt;
          &lt;th&gt;定位&lt;/th&gt;
          &lt;th&gt;主要优势&lt;/th&gt;
          &lt;th&gt;主要限制&lt;/th&gt;
          &lt;th&gt;推荐场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Gemma 4 2B&lt;/td&gt;
          &lt;td&gt;20 亿&lt;/td&gt;
          &lt;td&gt;超轻量&lt;/td&gt;
          &lt;td&gt;延迟低、资源占用小、部署门槛最低&lt;/td&gt;
          &lt;td&gt;复杂推理与长链路任务能力有限&lt;/td&gt;
          &lt;td&gt;移动端、IoT、轻量问答、简单自动化&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Gemma 4 4B&lt;/td&gt;
          &lt;td&gt;40 亿&lt;/td&gt;
          &lt;td&gt;轻量增强&lt;/td&gt;
          &lt;td&gt;比 2B 更稳的理解与生成能力，仍易本地部署&lt;/td&gt;
          &lt;td&gt;高强度编码/复杂 Agent 任务上限有限&lt;/td&gt;
          &lt;td&gt;本地助手、基础文档处理、多语言日常任务&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Gemma 4 26B&lt;/td&gt;
          &lt;td&gt;260 亿&lt;/td&gt;
          &lt;td&gt;高性能（专家混合）&lt;/td&gt;
          &lt;td&gt;推理和工具调用能力明显提升，适合生产工作流&lt;/td&gt;
          &lt;td&gt;显存需求显著上升，硬件门槛更高&lt;/td&gt;
          &lt;td&gt;编程助手、复杂工作流、企业内部 Agent&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Gemma 4 31B&lt;/td&gt;
          &lt;td&gt;310 亿&lt;/td&gt;
          &lt;td&gt;高性能（稠密）&lt;/td&gt;
          &lt;td&gt;综合能力最强，复杂任务稳定性更好&lt;/td&gt;
          &lt;td&gt;资源消耗最高，部署与调优成本最大&lt;/td&gt;
          &lt;td&gt;高要求推理、复杂代码任务、重度自动化&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;選択方法-ハードウェアとタスクから逆算して考える&#34;&gt;選択方法: ハードウェアとタスクから逆算して考える
&lt;/h2&gt;&lt;p&gt;「走れるかどうか、スムーズに走れるかどうか」を主に見る場合は以下から選べます。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;8GB&lt;/code&gt; ビデオ メモリ: 優先順位 &lt;code&gt;2B/4B&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;12GB&lt;/code&gt; ビデオ メモリ: &lt;code&gt;4B&lt;/code&gt; 以降のモデルの量子化バージョンを優先します。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;24GB&lt;/code&gt; ビデオ メモリ: &lt;code&gt;26B&lt;/code&gt; に焦点を当て、タスクに従って &lt;code&gt;31B&lt;/code&gt; の量子化バージョンを評価できます。&lt;/li&gt;
&lt;li&gt;より高いグラフィックス メモリまたは複数のカード: &lt;code&gt;31B&lt;/code&gt; の高精度構成を試すことができます。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;安定性と推論速度の確保を優先し、徐々にモデル規模を大きくしていくことをお勧めします。&lt;/p&gt;
&lt;h2 id=&#34;4-つの典型的な使用シナリオ&#34;&gt;4 つの典型的な使用シナリオ
&lt;/h2&gt;&lt;h3 id=&#34;1-現地の一般アシスタント&#34;&gt;1) 現地の一般アシスタント
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;優先モデル: &lt;code&gt;4B&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;理由：コストと効果のバランスが良く、長期の永続運用に適しています。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;2-コードと自動化&#34;&gt;2) コードと自動化
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;優先モデル: &lt;code&gt;26B&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;理由: 複数ステップのタスク、ツール呼び出し、およびスクリプト生成においてより安定しています。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;3-難易度の高い推理と複雑なエージェント&#34;&gt;3) 難易度の高い推理と複雑なエージェント
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;優先モデル: &lt;code&gt;31B&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;理由: 複雑なコンテキスト下での安定性が向上し、フォールト トレランスが向上します。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;4-エッジデバイスと軽量オフライン&#34;&gt;4) エッジデバイスと軽量オフライン
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;優先モデル: &lt;code&gt;2B&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;理由: リソースに制約のあるデバイスに実装するのが最も簡単です。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;導入に関する推奨事項-ollama-オリエンテーション&#34;&gt;導入に関する推奨事項 (Ollama オリエンテーション)
&lt;/h2&gt;&lt;p&gt;最も現実的な方法は、「小さなステップで素早く実行する」ことです。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;まず、&lt;code&gt;4B&lt;/code&gt; を使用して、実行可能なベースライン (速度、メモリ、エフェクト) を確立します。&lt;/li&gt;
&lt;li&gt;実際のタスクの固定テスト セットを作成します (例: 20 の FAQ + 10 の自動タスク)。&lt;/li&gt;
&lt;li&gt;次に、&lt;code&gt;26B/31B&lt;/code&gt; にアップグレードして、精度、遅延、メモリ コストを比較します。&lt;/li&gt;
&lt;li&gt;「メリットが明らかな」場合にのみ、大型モデルをアップグレードしてください。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;これにより、最初から大きなパラメータを追求し、遅延、低スループット、複雑なメンテナンスなどの問題が発生することを回避できます。&lt;/p&gt;
&lt;h2 id=&#34;結論は&#34;&gt;結論は
&lt;/h2&gt;&lt;p&gt;Gemma 4 の真の価値は、単に「より大きなパラメーター」ではなく、軽量から高性能までの実装可能なグラデーションの完全なセットです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;低コストで迅速にオンラインに接続したい場合は、&lt;code&gt;2B/4B&lt;/code&gt; から始めてください。&lt;/li&gt;
&lt;li&gt;ローカル AI を本番プロセスに真に統合したい場合は、&lt;code&gt;26B&lt;/code&gt; を優先してください。&lt;/li&gt;
&lt;li&gt;複雑な推論と高度な自動化に取り組みたい場合は、&lt;code&gt;31B&lt;/code&gt; をもう一度試してください。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Gemma 4 に最適な選択は、通常、パラメータが最大のバージョンではなく、ハードウェアの条件とミッションの目標に最もよく一致するバージョンです。&lt;/p&gt;
&lt;!-- ollama-related-links:start --&gt;
</description>
        </item>
        
    </channel>
</rss>
