<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>RTX 3070 on KnightLiブログ</title>
        <link>https://knightli.com/ja/tags/rtx-3070/</link>
        <description>Recent content in RTX 3070 on KnightLiブログ</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>ja</language>
        <lastBuildDate>Fri, 22 May 2026 22:44:16 +0800</lastBuildDate><atom:link href="https://knightli.com/ja/tags/rtx-3070/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>RTX 3070 8GBでQwen3.6-35Bをローカル実行：llama.cppの導入要点と最適化パラメータ</title>
        <link>https://knightli.com/ja/2026/05/22/rtx-3070-8gb-qwen36-35b-llama-cpp-local-deployment/</link>
        <pubDate>Fri, 22 May 2026 22:44:16 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/05/22/rtx-3070-8gb-qwen36-35b-llama-cpp-local-deployment/</guid>
        <description>&lt;p&gt;8GBのVRAMで35Bクラスのモデルを動かせるかどうかは、モデルの総パラメータ数だけでは決まらない。モデル構造、量子化形式、推論フレームワークのスケジューリング方式も重要になる。&lt;/p&gt;
&lt;p&gt;今回の構成の中心は、Qwen3.6-35B-A3BのようなMoEモデルのGGUF量子化版を使い、llama.cppのCUDAアクセラレーション、CPU Offload、MoEパラメータ調整、KV Cache量子化を組み合わせて、VRAM負荷をGPUとシステムメモリの間で分散することにある。これにより、RTX 3070 8GBのような旧世代GPUでも、35Bクラスのローカルマルチモーダルモデルを動かせる可能性が出てくる。&lt;/p&gt;
&lt;p&gt;先に明確にしておきたい点がある。これは「8GBのVRAMに35Bモデル全体を完全に載せる」という意味ではない。より正確には、GPUに向いた計算部分をGPUが担当し、一部のエキスパート層やキャッシュ負荷をシステムメモリが受け持つ、という理解になる。実際の体験は、メモリ容量、CPU性能、モデルの量子化形式、コンテキスト長、パラメータ設定に左右される。&lt;/p&gt;
&lt;h2 id=&#34;テスト環境&#34;&gt;テスト環境
&lt;/h2&gt;&lt;p&gt;この種の構成はシステムメモリにかなり敏感だ。参考環境は次のとおり。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;CPU：Intel Core i7-12700クラス&lt;/li&gt;
&lt;li&gt;GPU：NVIDIA RTX 3070 8GB&lt;/li&gt;
&lt;li&gt;メモリ：64GB&lt;/li&gt;
&lt;li&gt;OS：Windows 11&lt;/li&gt;
&lt;li&gt;推論フレームワーク：llama.cpp CUDA版&lt;/li&gt;
&lt;li&gt;モデル形式：GGUF&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;16GBまたは32GBメモリでも完全に試せないわけではないが、35B MoEモデルはロード時や長文コンテキスト推論時にメモリ圧迫が起きやすい。安定して使うなら、64GBメモリのほうが安心だ。&lt;/p&gt;
&lt;h2 id=&#34;なぜ8gb-vramでも35bを動かせる可能性があるのか&#34;&gt;なぜ8GB VRAMでも35Bを動かせる可能性があるのか
&lt;/h2&gt;&lt;p&gt;Qwen3.6-35B-A3Bの鍵はMoEアーキテクチャにある。総パラメータ規模は35Bだが、各推論ステップですべてのパラメータが同時に有効化されるわけではなく、一部のエキスパートパラメータだけが有効になる。&lt;/p&gt;
&lt;p&gt;これにより二つの結果が生まれる。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;モデルファイル全体は依然として大きく、十分なディスク容量とシステムメモリが必要になる。&lt;/li&gt;
&lt;li&gt;1回の推論で実際に使われる計算量は、完全な35B Denseモデルより低い。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;llama.cppのCPU OffloadとMoE関連パラメータは、VRAMの最低ラインをさらに下げられる。GPUは主にAttentionと効果の大きい計算を担当し、CPUとシステムメモリが一部のエキスパート層の重みを担当する。その代わり、速度、応答遅延、安定性はGPU型番だけでなく、マシン全体の構成により強く依存する。&lt;/p&gt;
&lt;h2 id=&#34;llamacppを準備する&#34;&gt;llama.cppを準備する
&lt;/h2&gt;&lt;p&gt;Windowsユーザーは、llama.cppのプリビルドCUDA版を直接ダウンロードできる。注意点は三つある。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;GPUドライバは十分に新しくし、CUDA実行環境がダウンロードしたllama.cppパッケージと合っていることを確認する。&lt;/li&gt;
&lt;li&gt;ダウンロード後は、中国語や特殊文字を含まないパスに置くと、バッチスクリプトから呼び出しやすい。&lt;/li&gt;
&lt;li&gt;モデルファイルは&lt;code&gt;models&lt;/code&gt;ディレクトリにまとめ、コマンド内のパスが長くなりすぎないようにする。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;AMD、Intel GPU、またはCPUのみの環境では、Vulkan、HIP、SYCL、CPU版も選べる。ただし、パラメータと性能は異なる。この記事ではNVIDIA GPU上のCUDAルートに絞る。&lt;/p&gt;
&lt;h2 id=&#34;モデルとマルチモーダル投影ファイルをダウンロードする&#34;&gt;モデルとマルチモーダル投影ファイルをダウンロードする
&lt;/h2&gt;&lt;p&gt;今回使用するモデルは次のとおり。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-35B-A3B-UD-Q4_K_M.gguf&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;量子化形式は&lt;code&gt;Q4_K_M&lt;/code&gt;を選ぶ。これは主に精度、サイズ、速度のバランスを取るためだ。VRAMが少ないマシンでは、最初から高精度版を試すのはおすすめしない。ロード失敗やシステムの頻繁なページングが起きる可能性が高くなる。&lt;/p&gt;
&lt;p&gt;画像理解を使う場合は、マルチモーダル投影ファイルも同時に用意する必要がある。例：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;mmproj-BF16.gguf&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;このファイルは非常に重要だ。メインモデルだけをダウンロードした場合、通常はテキスト推論しかできない。&lt;code&gt;mmproj&lt;/code&gt;がないと、Web UIで画像アップロード機能が正常に使えなかったり、アップロード後に視覚理解が動かなかったりする。&lt;/p&gt;
&lt;p&gt;ディレクトリ構造はシンプルにしておくとよい。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama.cpp/
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;├─ llama-server.exe
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;└─ models/
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;   ├─ Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;   └─ mmproj-BF16.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;rtx-3070-8gb向け起動パラメータ&#34;&gt;RTX 3070 8GB向け起動パラメータ
&lt;/h2&gt;&lt;p&gt;以下はRTX 3070 8GB向けの起動スクリプト例だ。パスは自分のllama.cppディレクトリに合わせて変更する。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;19
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;20
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;21
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;22
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bat&#34; data-lang=&#34;bat&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;@&lt;/span&gt;&lt;span class=&#34;k&#34;&gt;echo&lt;/span&gt; off
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;chcp 65001 &lt;span class=&#34;p&#34;&gt;&amp;gt;&lt;/span&gt;nul
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;cd&lt;/span&gt; /d D:\AI\llama.cpp
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-server.exe &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -m &lt;span class=&#34;s2&#34;&gt;&amp;#34;models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf&amp;#34;&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --mmproj &lt;span class=&#34;s2&#34;&gt;&amp;#34;models\mmproj-BF16.gguf&amp;#34;&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -ngl 99 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --n-cpu-moe 999 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --flash-attn on &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --jinja &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -c 32768 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -t 12 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -b 512 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -ub 128 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --cache-type-k q4_0 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --cache-type-v q4_0 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --mlock &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --host 127.0.0.1 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --port 8080
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;pause&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;起動後、ブラウザで次のアドレスにアクセスする。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;http://127.0.0.1:8080
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ページが開き、モデルが正常に応答すれば、サービスは起動できている。初回ロードは遅いことがある。ロード中に何度も複数インスタンスを起動すると、メモリを使い切りやすいので避ける。&lt;/p&gt;
&lt;h2 id=&#34;主要パラメータの意味&#34;&gt;主要パラメータの意味
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;-ngl 99&lt;/code&gt;は、GPUに載せられる層をできるだけGPUへ置く指定だ。実際にどれだけ載るかは、モデル構造、量子化形式、VRAM使用量に左右される。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;--n-cpu-moe 999&lt;/code&gt;は、MoEエキスパート層をより多くCPU側に回し、VRAM負荷を下げるための指定だ。小VRAM環境で大きなMoEモデルを動かすための重要なパラメータの一つである。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;--flash-attn on&lt;/code&gt;はFlash Attentionを有効にし、Attention計算の負荷を下げる助けになる。利用できるかどうかは、現在のllama.cppバージョンとGPUの対応状況に依存する。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;-c 32768&lt;/code&gt;はコンテキスト長を設定する。長いコンテキストはKV Cache負荷を大きく増やす。起動に失敗する、または推論が非常に遅い場合は、まず&lt;code&gt;8192&lt;/code&gt;または&lt;code&gt;16384&lt;/code&gt;へ下げるとよい。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;--cache-type-k q4_0&lt;/code&gt;と&lt;code&gt;--cache-type-v q4_0&lt;/code&gt;はKV Cacheを量子化し、メモリとVRAMを節約する。ただし、出力品質や速度にわずかな影響が出る可能性がある。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;-b 512&lt;/code&gt;と&lt;code&gt;-ub 128&lt;/code&gt;はバッチ処理関連のパラメータだ。小VRAM環境では、最初から攻めたバッチ設定にしないほうがよい。&lt;/p&gt;
&lt;h2 id=&#34;よくある問題&#34;&gt;よくある問題
&lt;/h2&gt;&lt;p&gt;起動時にVRAM不足が出る場合は、まずコンテキスト長を下げる。たとえば&lt;code&gt;-c 32768&lt;/code&gt;を&lt;code&gt;-c 8192&lt;/code&gt;に変更し、その後&lt;code&gt;-b&lt;/code&gt;と&lt;code&gt;-ub&lt;/code&gt;を小さくして試す。&lt;/p&gt;
&lt;p&gt;画像アップロードボタンが使えない場合は、まず&lt;code&gt;--mmproj&lt;/code&gt;のパスが正しいか、使用している&lt;code&gt;mmproj&lt;/code&gt;がモデルと一致しているかを確認する。&lt;/p&gt;
&lt;p&gt;モデルロード後の応答が遅い場合、GPUがまったく動いていないとは限らない。多くの重みやエキスパート層をCPUとシステムメモリが担当している可能性がある。タスクマネージャーでGPU、CPU、メモリ、ディスク使用率を確認し、ボトルネックを判断する。&lt;/p&gt;
&lt;p&gt;出力形式が崩れる場合は、&lt;code&gt;--jinja&lt;/code&gt;が有効になっているかを確認し、現在のモデルが対応するチャットテンプレートを必要としているかも確認する。&lt;/p&gt;
&lt;p&gt;サービス起動後にブラウザで開けない場合は、&lt;code&gt;--host&lt;/code&gt;と&lt;code&gt;--port&lt;/code&gt;の設定を確認し、8080番ポートが他のプログラムに使われていないかを見る。&lt;/p&gt;
&lt;h2 id=&#34;誰に向いているか&#34;&gt;誰に向いているか
&lt;/h2&gt;&lt;p&gt;この構成は、RTX 3070、RTX 4060 Laptop、RTX 3060 8GBのような8GB VRAM機をすでに持っていて、より大きなMoEモデルを試したいユーザーに向いている。&lt;/p&gt;
&lt;p&gt;最高速度を求める人には向いていない。小VRAMで35B MoEを動かすことは、本質的にはメモリとCPUでVRAM要件を下げることだ。動くことと、十分に快適であることは別の話である。&lt;/p&gt;
&lt;p&gt;日常的な高頻度チャットが目的なら、7B、8B、14Bモデルのほうが快適かもしれない。より大きなMoEモデル、マルチモーダル能力、ローカルデプロイの限界を試したいなら、RTX 3070 8GBと64GBメモリの組み合わせにはまだ試す価値がある。&lt;/p&gt;
&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;p&gt;RTX 3070 8GBでQwen3.6-35B-A3Bを動かせる理由は、VRAMが突然増えたからではない。MoEアーキテクチャ、GGUF量子化、llama.cpp CPU Offload、KV Cache最適化が組み合わさって、必要条件を下げているからだ。&lt;/p&gt;
&lt;p&gt;この構成で最も注目すべき点は、古いGPUでもローカル大規模モデル実験に参加できることだ。速度と安定性のトレードオフを受け入れれば、8GB VRAMのマシンも小型モデル専用の入門機ではなく、ローカルAIモデルのテスト環境になり得る。&lt;/p&gt;
&lt;p&gt;参考資料：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;原文リンク：https://www.freedidi.com/24267.html&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
