<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Hugging Face on KnightLiブログ</title>
        <link>https://knightli.com/ja/tags/hugging-face/</link>
        <description>Recent content in Hugging Face on KnightLiブログ</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>ja</language>
        <lastBuildDate>Sat, 18 Apr 2026 10:20:00 +0800</lastBuildDate><atom:link href="https://knightli.com/ja/tags/hugging-face/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Gemma 4 E4B の脱獄版と公式通常版の違い</title>
        <link>https://knightli.com/ja/2026/04/18/gemma-4-e4b-uncensored-vs-official/</link>
        <pubDate>Sat, 18 Apr 2026 10:20:00 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/18/gemma-4-e4b-uncensored-vs-official/</guid>
        <description>&lt;p&gt;&lt;code&gt;HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive&lt;/code&gt; のようなモデルを見るときに一番重要なのは、これは &lt;strong&gt;Google が新しく出した別の Gemma 4 ではない&lt;/strong&gt; という点です。公式の &lt;code&gt;google/gemma-4-E4B-it&lt;/code&gt; をベースにした非公式派生版であり、主眼は「拒否応答を減らすこと」にあります。&lt;/p&gt;
&lt;p&gt;つまり、通常版との本質的な差はモデル構造よりも &lt;strong&gt;アラインメント方針と応答スタイル&lt;/strong&gt; にあります。&lt;/p&gt;
&lt;h2 id=&#34;この派生版モデルカードが明示していること&#34;&gt;この派生版モデルカードが明示していること
&lt;/h2&gt;&lt;p&gt;Hugging Face のモデルカードでは、この HauhauCS 版について次のように書かれています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;google/gemma-4-E4B-it&lt;/code&gt; ベースである&lt;/li&gt;
&lt;li&gt;「データセットや能力には変更がない」と主張している&lt;/li&gt;
&lt;li&gt;違いは「拒否応答を外しただけ」と主張している&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Aggressive&lt;/code&gt; 版は「完全に解放され、プロンプトを拒否しない」と説明している&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;これらは作者側の主張であり、独立した第三者評価ではありません。ただし、意図している方向性は明確です。これは「安全上の拒否を減らす」ことを狙った非公式派生版です。&lt;/p&gt;
&lt;h2 id=&#34;公式版-vs-いわゆる脱獄版&#34;&gt;公式版 vs いわゆる「脱獄版」
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;観点&lt;/th&gt;
          &lt;th&gt;公式 &lt;code&gt;google/gemma-4-E4B-it&lt;/code&gt;&lt;/th&gt;
          &lt;th&gt;&lt;code&gt;Gemma-4-E4B-Uncensored-HauhauCS-Aggressive&lt;/code&gt;&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;出所&lt;/td&gt;
          &lt;td&gt;Google 公式&lt;/td&gt;
          &lt;td&gt;Hugging Face 上の第三者派生版&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;ベースモデル&lt;/td&gt;
          &lt;td&gt;Gemma 4 E4B の instruction-tuned 版&lt;/td&gt;
          &lt;td&gt;同じモデル系統で、モデルカードにも &lt;code&gt;google/gemma-4-E4B-it&lt;/code&gt; ベースと明記&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;主目的&lt;/td&gt;
          &lt;td&gt;汎用アシスタント能力 + Responsible AI 前提&lt;/td&gt;
          &lt;td&gt;拒否応答を減らし、とにかく出力を続ける&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;安全方針&lt;/td&gt;
          &lt;td&gt;Gemma 系列の安全文書・禁止用途ポリシーに沿う&lt;/td&gt;
          &lt;td&gt;拒否やガードレールを意図的に弱めている&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;応答傾向&lt;/td&gt;
          &lt;td&gt;敏感な要求では拒否・回避・慎重回答が増える&lt;/td&gt;
          &lt;td&gt;公式版なら止まる要求にもそのまま答えやすい&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;リスク&lt;/td&gt;
          &lt;td&gt;既定では比較的低いが、完全に安全という意味ではない&lt;/td&gt;
          &lt;td&gt;既定でより高リスク。不適切または非準拠の出力が出やすい&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;プロダクト適性&lt;/td&gt;
          &lt;td&gt;企業や公開サービスで説明しやすい&lt;/td&gt;
          &lt;td&gt;公開サービスやポリシー重視環境では扱いにくい&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;追加対策&lt;/td&gt;
          &lt;td&gt;アプリ側の安全対策は依然必要&lt;/td&gt;
          &lt;td&gt;モデル側の抑制が弱いため、下流側の安全対策がより重要&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;本質は能力向上より挙動変更&#34;&gt;本質は「能力向上」より「挙動変更」
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;uncensored&lt;/code&gt; を「より高性能」と受け取るのは、たいてい正確ではありません。&lt;/p&gt;
&lt;p&gt;こうした派生版で先に変わるのは次の点です。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;どれだけ拒否するか&lt;/li&gt;
&lt;li&gt;敏感な要求にどれだけ従うか&lt;/li&gt;
&lt;li&gt;最終回答にどれだけ安全フィルタが残るか&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一方で、名前に &lt;code&gt;Uncensored&lt;/code&gt; と付いているからといって、次のものまで自動的に大きく向上するわけではありません。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;モデルアーキテクチャ&lt;/li&gt;
&lt;li&gt;コンテキスト長&lt;/li&gt;
&lt;li&gt;マルチモーダル能力&lt;/li&gt;
&lt;li&gt;推論能力の上限&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;より正確には、これは &lt;strong&gt;同じモデル系列の中で挙動の調整が違う版&lt;/strong&gt; と見るべきであり、上位モデルとみなすべきではありません。&lt;/p&gt;
&lt;h2 id=&#34;なぜ公式版のほうが保守的なのか&#34;&gt;なぜ公式版のほうが保守的なのか
&lt;/h2&gt;&lt;p&gt;Google の Gemma 公式文書は、この系列を Responsible AI 開発の文脈で位置づけています。Gemma のモデルカードでは誤用、有害コンテンツ、プライバシー、バイアスといったリスクが明示されており、Gemma Prohibited Use Policy では Gemma または派生モデルを次の用途に使うことを禁じています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;危険・違法・悪意ある活動&lt;/li&gt;
&lt;li&gt;有害、誤解を招く、欺瞞的なコンテンツ生成&lt;/li&gt;
&lt;li&gt;安全フィルタの上書きや回避&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;つまり、公式版が保守的なのは偶然ではなく、文書・ライセンス・運用前提が最初からそう設計されているためです。&lt;/p&gt;
&lt;h2 id=&#34;公式通常版が向いているケース&#34;&gt;公式通常版が向いているケース
&lt;/h2&gt;&lt;p&gt;次の点を重視するなら、まずは公式 &lt;code&gt;google/gemma-4-E4B-it&lt;/code&gt; のほうが適しています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;プロダクトへの組み込み&lt;/li&gt;
&lt;li&gt;チーム利用&lt;/li&gt;
&lt;li&gt;企業・公開向け運用&lt;/li&gt;
&lt;li&gt;ポリシーや法務リスクの低減&lt;/li&gt;
&lt;li&gt;出力挙動の説明可能性&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;多くの通常用途では、こちらが基本選択です。&lt;/p&gt;
&lt;h2 id=&#34;あえて脱獄版を試す人がいる理由&#34;&gt;あえて脱獄版を試す人がいる理由
&lt;/h2&gt;&lt;p&gt;こうした uncensored 派生版が選ばれるのは、たいてい次のような理由です。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ローカルでの私的実験&lt;/li&gt;
&lt;li&gt;公式版が早すぎる拒否をしていないかの確認&lt;/li&gt;
&lt;li&gt;ロールプレイや自由度の高い創作&lt;/li&gt;
&lt;li&gt;アラインメント違いの比較&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ただし、その分だけ安全責任はモデル提供者ではなく利用者側に移ります。&lt;/p&gt;
&lt;h2 id=&#34;結論&#34;&gt;結論
&lt;/h2&gt;&lt;p&gt;Gemma 4 E4B のいわゆる「脱獄版」と公式通常版の最も大きな違いは次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;公式版は「ガードレール付きの実用性」を重視&lt;/li&gt;
&lt;li&gt;脱獄版は「拒否を減らした出力継続性」を重視&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;これは &lt;strong&gt;自動的に高性能になることを意味しません&lt;/strong&gt;。主に &lt;strong&gt;より許容的になる&lt;/strong&gt; だけです。&lt;/p&gt;
&lt;p&gt;安定性、説明可能性、配備のしやすさを重視するなら、まず公式版を使うのが妥当です。ローカル実験目的で、安全性・コンプライアンス・出力リスクを自分で引き受けられる場合に限って、uncensored 派生版を「挙動違いの別バリアント」として比較するのが現実的です。&lt;/p&gt;
&lt;h2 id=&#34;参考リンク&#34;&gt;参考リンク
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Hugging Face: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Hugging Face: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/google/gemma-4-E4B-it&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;google/gemma-4-E4B-it&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Google AI for Developers: &lt;a class=&#34;link&#34; href=&#34;https://ai.google.dev/gemma/prohibited_use_policy&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Gemma Prohibited Use Policy&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Google AI for Developers: &lt;a class=&#34;link&#34; href=&#34;https://ai.google.dev/gemma/docs/core/model_card&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Gemma model card&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>llama-cli -hf でダウンロードした Hugging Face モデルのデフォルト保存先</title>
        <link>https://knightli.com/ja/2026/04/17/llama-cli-hf-download-default-cache-path/</link>
        <pubDate>Fri, 17 Apr 2026 14:48:04 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/17/llama-cli-hf-download-default-cache-path/</guid>
        <description>&lt;p&gt;&lt;code&gt;llama-cli&lt;/code&gt; を使って Hugging Face から直接モデルをダウンロードして実行する場合、たとえば次のように実行します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf unsloth/gemma-4-E4B-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;これは &lt;code&gt;llama.cpp&lt;/code&gt; に組み込まれている Hugging Face ダウンロード機能です。新しい &lt;code&gt;llama.cpp&lt;/code&gt; では、&lt;code&gt;-hf&lt;/code&gt; でダウンロードしたモデルは標準の Hugging Face Hub キャッシュディレクトリに保存されます。&lt;/p&gt;
&lt;h2 id=&#34;デフォルトのキャッシュ場所&#34;&gt;デフォルトのキャッシュ場所
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;llama-cli -hf&lt;/code&gt; でダウンロードしたモデルのキャッシュ場所は、まず &lt;code&gt;LLAMA_CACHE&lt;/code&gt; 環境変数で制御されます。&lt;code&gt;LLAMA_CACHE&lt;/code&gt; が設定されていない場合は、&lt;code&gt;HF_HUB_CACHE&lt;/code&gt;、&lt;code&gt;HUGGINGFACE_HUB_CACHE&lt;/code&gt;、&lt;code&gt;HF_HOME&lt;/code&gt; などの Hugging Face 関連のキャッシュ変数が確認されます。&lt;/p&gt;
&lt;p&gt;これらの変数がどれも設定されていない場合、主なデフォルトパスは次のとおりです。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;システム&lt;/th&gt;
          &lt;th&gt;デフォルトキャッシュディレクトリ&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Linux&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;~/.cache/huggingface/hub&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;macOS&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;~/.cache/huggingface/hub&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Windows&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;%USERPROFILE%\.cache\huggingface\hub&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Windows では、&lt;code&gt;%USERPROFILE%&lt;/code&gt; は通常次の場所を指します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;C:\Users\用户名
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;そのため、デフォルトのキャッシュディレクトリはおおよそ次のようになります。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;C:\Users\用户名\.cache\huggingface\hub
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;llama-cli-のキャッシュディレクトリを変更する方法&#34;&gt;llama-cli のキャッシュディレクトリを変更する方法
&lt;/h2&gt;&lt;p&gt;モデルキャッシュを指定したディスクやディレクトリに置きたい場合は、&lt;code&gt;LLAMA_CACHE&lt;/code&gt; を設定します。Hugging Face の慣例に合わせて &lt;code&gt;HF_HOME&lt;/code&gt; を設定することもできます。その場合、実際の Hub キャッシュディレクトリは &lt;code&gt;$HF_HOME/hub&lt;/code&gt; になります。&lt;/p&gt;
&lt;p&gt;Windows CMD の一時設定例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;set LLAMA_CACHE=D:\models\llama-cache
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf unsloth/gemma-4-E4B-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;PowerShell の一時設定例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-powershell&#34; data-lang=&#34;powershell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;$env:LLAMA_CACHE&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;D:\models\llama-cache&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;llama-cli&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-hf&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;unsloth&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;/&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;gemma&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;4&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;-E4B-it-GGUF&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Linux / macOS の一時設定例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;LLAMA_CACHE&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;/data/models/llama-cache
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf unsloth/gemma-4-E4B-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;llama-cli -hf ...&lt;/code&gt; は &lt;code&gt;llama.cpp&lt;/code&gt; のダウンロード機構を使いますが、新しいバージョンでは標準の Hugging Face Hub キャッシュがデフォルトです。&lt;/li&gt;
&lt;li&gt;Linux / macOS デフォルト：&lt;code&gt;~/.cache/huggingface/hub&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Windows デフォルト：&lt;code&gt;%USERPROFILE%\.cache\huggingface\hub&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;場所を変更したい場合：&lt;code&gt;LLAMA_CACHE&lt;/code&gt;、または &lt;code&gt;HF_HOME&lt;/code&gt; / &lt;code&gt;HF_HUB_CACHE&lt;/code&gt; を設定する&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Windows で llama-cli から Hugging Face に直接アクセスすると SSL 証明書検証に失敗する場合の対処</title>
        <link>https://knightli.com/ja/2026/04/17/llama-cli-hugging-face-ssl-certificate-failed-on-windows/</link>
        <pubDate>Fri, 17 Apr 2026 14:20:29 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/17/llama-cli-hugging-face-ssl-certificate-failed-on-windows/</guid>
        <description>&lt;p&gt;Windows で次のコマンドを実行したとします。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf unsloth/gemma-4-E4B-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;そして、次のようなエラーが表示される場合があります。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;get_repo_commit: error: HTTPLIB failed: SSL server verification failed
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;error: failed to download model from Hugging Face
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;この場合、問題は CUDA や &lt;code&gt;llama.cpp&lt;/code&gt; 本体ではないことが多いです。多くの場合、現在の環境でプログラムがシステムの証明書チェーンを正しく参照できず、HTTPS の検証に失敗しています。&lt;/p&gt;
&lt;p&gt;ログを見ると、&lt;code&gt;ggml-rpc.dll&lt;/code&gt; と &lt;code&gt;ggml-cpu-alderlake.dll&lt;/code&gt; は正常に読み込まれています。つまり、実行環境自体はおおむね利用可能で、問題は主にモデルのダウンロード段階にあります。&lt;/p&gt;
&lt;h2 id=&#34;一番手軽な方法先にモデルを手動ダウンロードする&#34;&gt;一番手軽な方法：先にモデルを手動ダウンロードする
&lt;/h2&gt;&lt;p&gt;とにかく早く動かしたい場合は、ローカルに手動でダウンロードする方法がもっとも安定しています。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;対象の Hugging Face リポジトリページを開きます。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Files and versions&lt;/code&gt; から必要な &lt;code&gt;.gguf&lt;/code&gt; ファイルをダウンロードします。&lt;/li&gt;
&lt;li&gt;ダウンロード後、ローカルファイルのパスを指定して実行します。&lt;/li&gt;
&lt;/ol&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-gdscript3&#34; data-lang=&#34;gdscript3&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;llama&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;cli&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;m&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;C&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;\&lt;span class=&#34;n&#34;&gt;Users&lt;/span&gt;\&lt;span class=&#34;n&#34;&gt;knightli&lt;/span&gt;\&lt;span class=&#34;n&#34;&gt;Downloads&lt;/span&gt;\&lt;span class=&#34;n&#34;&gt;gemma&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;4&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;e4b&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;it&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;gguf&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;この方法なら、&lt;code&gt;-hf&lt;/code&gt; のダウンロード段階で発生する SSL 検証問題を回避できます。まずモデルが正常に推論できるか確認したい場合に向いています。&lt;/p&gt;
&lt;h2 id=&#34;それでも--hf-の自動ダウンロードを使いたい場合&#34;&gt;それでも &lt;code&gt;-hf&lt;/code&gt; の自動ダウンロードを使いたい場合
&lt;/h2&gt;&lt;p&gt;証明書ファイルのパスを手動で指定し、現在のセッションで利用できる CA 証明書をプログラムに見つけさせます。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;cacert.pem&lt;/code&gt; は curl 公式が管理している CA Extract ページから取得できます。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ページ：&lt;a class=&#34;link&#34; href=&#34;https://curl.se/docs/caextract.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://curl.se/docs/caextract.html&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;直接ダウンロード：&lt;a class=&#34;link&#34; href=&#34;https://curl.se/ca/cacert.pem&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://curl.se/ca/cacert.pem&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ブラウザでダウンロードする場合は、上の直接ダウンロード URL を開いて &lt;code&gt;cacert.pem&lt;/code&gt; として保存します。PowerShell で固定ディレクトリにダウンロードすることもできます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-powershell&#34; data-lang=&#34;powershell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;New-Item&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-ItemType&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;Directory&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-Force&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;C:&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;\&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;certs&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;Invoke-WebRequest&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-Uri&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;https&lt;/span&gt;&lt;span class=&#34;err&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;//&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;curl&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;se&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;/&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;ca&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;/&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;cacert&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;py&#34;&gt;pem&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-OutFile&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;C:&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;\&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;certs&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;\&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;cacert&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;py&#34;&gt;pem&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ダウンロード後、コマンドラインで次のように設定します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;set SSL_CERT_FILE=C:\certs\cacert.pem
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;set CURL_CA_BUNDLE=C:\certs\cacert.pem
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;その後、元のコマンドをもう一度実行します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf unsloth/gemma-4-E4B-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;問題の原因が証明書チェーンにある場合、この方法で解決できることが多いです。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>llama.cpp Hugging Face から GGUF モデルを取得する方法</title>
        <link>https://knightli.com/ja/2026/04/12/llama-cpp-hugging-face-gguf-models/</link>
        <pubDate>Sun, 12 Apr 2026 09:31:38 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/12/llama-cpp-hugging-face-gguf-models/</guid>
        <description>&lt;p&gt;&lt;code&gt;llama.cpp&lt;/code&gt; は、Hugging Face の GGUF モデルで直接使用できます。最初にファイルを手動でローカルにダウンロードする必要はありません。&lt;/p&gt;
&lt;p&gt;モデル ウェアハウス自体が GGUF ファイルを提供している場合は、次のようにコマンド ラインで &lt;code&gt;-hf&lt;/code&gt; パラメーターを直接使用できます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf ggml-org/gemma-3-1b-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;デフォルトでは、このパラメータは Hugging Face からモデルをダウンロードします。&lt;br&gt;
Hugging Face API と互換性のある別のモデル ホスティング サービスを使用している場合は、環境変数 &lt;code&gt;MODEL_ENDPOINT&lt;/code&gt; を通じてダウンロード エンドポイントを切り替えることもできます。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;llama.cpp&lt;/code&gt; は、&lt;code&gt;GGUF&lt;/code&gt; 形式のみを直接使用できることに注意してください。&lt;br&gt;
他の形式でモデル ファイルを取得した場合は、まずウェアハウス内の &lt;code&gt;convert_*.py&lt;/code&gt; スクリプトを使用して、それを &lt;code&gt;GGUF&lt;/code&gt; に変換する必要があります。&lt;/p&gt;
&lt;p&gt;Hugging Face は、&lt;code&gt;llama.cpp&lt;/code&gt; に関連するいくつかのオンライン ツールも提供します。一般的な用途には次のようなものがあります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;モデルを &lt;code&gt;GGUF&lt;/code&gt; に変換します&lt;/li&gt;
&lt;li&gt;モデルを定量化し、サイズを縮小する&lt;/li&gt;
&lt;li&gt;LoRA アダプターを変換する&lt;/li&gt;
&lt;li&gt;GGUF メタデータをオンラインで編集する&lt;/li&gt;
&lt;li&gt;&lt;code&gt;llama.cpp&lt;/code&gt; 推論サービスを直接ホストする&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最も実用的な結論だけを覚えておきたい場合は、まず &lt;code&gt;GGUF&lt;/code&gt; をすでに提供しているモデル ウェアハウスを探し、次に &lt;code&gt;llama-cli -hf &amp;lt;user&amp;gt;/&amp;lt;model&amp;gt;&lt;/code&gt; を直接使用します。これが通常は最も簡単な方法です。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Llama の GGUF モデルを選択するときの量子化の選択方法: Q8 から Q2 までの実践的な提案</title>
        <link>https://knightli.com/ja/2026/04/11/llama-gguf-quantization-selection/</link>
        <pubDate>Sat, 11 Apr 2026 20:07:29 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/11/llama-gguf-quantization-selection/</guid>
        <description>&lt;p&gt;Hugging Face で Llama の GGUF モデルを選択する場合、まず量子化レベルを「解像度」として理解できます。解像度が低いほど使用する VRAM/RAM は少なくなりますが、品質は徐々に低下します。&lt;/p&gt;
&lt;h2 id=&#34;まずは3216qシリーズについて理解しましょう&#34;&gt;まずは32、16、Qシリーズについて理解しましょう
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;32&lt;/code&gt;: 最高品質のオリジナルの非圧縮バージョンとして理解できますが、ハードウェア要件は非常に高くなります。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;16&lt;/code&gt;: 元の品質に近く、サイズは &lt;code&gt;32&lt;/code&gt; の約半分で、より実用的です。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q8&lt;/code&gt;: ここから量子化バージョンが来ます。通常は &lt;code&gt;Q8_0&lt;/code&gt; または &lt;code&gt;Q8&lt;/code&gt; と書かれます。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6&lt;/code&gt;、&lt;code&gt;Q5&lt;/code&gt;、&lt;code&gt;Q4&lt;/code&gt;、&lt;code&gt;Q3&lt;/code&gt;、&lt;code&gt;Q2&lt;/code&gt;: 数値が小さいほど、リソースの使用量が低くなり、目に見える品質の低下が発生しやすくなります。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;k_m--k_sとは&#34;&gt;&lt;code&gt;K_M&lt;/code&gt; / &lt;code&gt;K_S&lt;/code&gt;とは
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;K_M&lt;/code&gt; および &lt;code&gt;K_S&lt;/code&gt; は、ハイブリッド量子化戦略を表します。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ほとんどの重みは現在の量子化レベルを使用します&lt;/li&gt;
&lt;li&gt;一部の主要部品はより高い精度を維持&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;したがって、同じレベルでは、&lt;code&gt;Qx_K_M&lt;/code&gt; または &lt;code&gt;Qx_K_S&lt;/code&gt; は、通常、純粋な &lt;code&gt;Qx&lt;/code&gt; よりもわずかに優れています。&lt;/p&gt;
&lt;h2 id=&#34;実用的な選択の提案&#34;&gt;実用的な選択の提案
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;十分なハードウェア: 優先順位 &lt;code&gt;Q8&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;ビデオ メモリまたはメモリが不足しています: &lt;code&gt;Q6&lt;/code&gt; / &lt;code&gt;Q5&lt;/code&gt; / &lt;code&gt;Q4&lt;/code&gt; まで段階的にダウンします。&lt;/li&gt;
&lt;li&gt;下限の提案: &lt;code&gt;Q4&lt;/code&gt; を下回らないようにし、&lt;code&gt;Q4_K_M&lt;/code&gt; を優先します。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3&lt;/code&gt; 以下: 品質の低下がますます顕著になります。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;品質の勾配-高から低&#34;&gt;品質の勾配 (高から低)
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;32&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;16&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; この点を超えると、品質は同じですが、ハードウェア要件が非常に高くなります &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q8&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; これが古典的なスイートスポットです &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q4_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; この点を下回ると、品質の低下が顕著になります &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;単純な結論が必要な場合: ほとんどのシナリオでは、&lt;code&gt;Q8&lt;/code&gt; または &lt;code&gt;Q6_K_M&lt;/code&gt; から開始するだけでは十分ではなく、通常は &lt;code&gt;Q5&lt;/code&gt; または &lt;code&gt;Q4_K_M&lt;/code&gt; にダウングレードする方が安全です。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Hugging Face から GGUF モデルをダウンロードし、Ollama にインポートします。</title>
        <link>https://knightli.com/ja/2026/04/09/import-huggingface-gguf-into-ollama/</link>
        <pubDate>Thu, 09 Apr 2026 11:00:07 +0800</pubDate>
        
        <guid>https://knightli.com/ja/2026/04/09/import-huggingface-gguf-into-ollama/</guid>
        <description>&lt;p&gt;モデルの公式 Ollama ライブラリに既製バージョンがない場合、または Hugging Face で特定の &lt;code&gt;GGUF&lt;/code&gt; ファイルを使用したい場合は、手動でダウンロードして Ollama にインポートできます。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-1-hugging-face-から-gguf-ファイルをダウンロードする&#34;&gt;ステップ 1: Hugging Face から GGUF ファイルをダウンロードする
&lt;/h2&gt;&lt;p&gt;まず、Hugging Face で対象モデルに対応する &lt;code&gt;GGUF&lt;/code&gt; ファイルを見つけます。次のような複数の量子化バージョンが表示されるのが一般的です。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;どのバージョンを選択するかは、ビデオ メモリ、メモリ、速度と品質の選択によって異なります。ダウンロード後、&lt;code&gt;.gguf&lt;/code&gt; ファイルを固定ディレクトリに置き、後で &lt;code&gt;Modelfile&lt;/code&gt; で直接参照します。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-2-モデルファイルを作成する&#34;&gt;ステップ 2: モデルファイルを作成する
&lt;/h2&gt;&lt;p&gt;モデル ファイルと同じディレクトリに新しい &lt;code&gt;Modelfile&lt;/code&gt; を作成します。最も基本的な書き方は次のとおりです。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;FROM ./model.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ファイル名が異なる場合は、次のように実際のファイル名に変更します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;FROM ./gemma-3-12b-it-q4_k_m.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;最初に実行したいだけの場合は、通常、&lt;code&gt;FROM&lt;/code&gt; 行で十分です。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-3-ollama-にインポートする&#34;&gt;ステップ 3: Ollama にインポートする
&lt;/h2&gt;&lt;p&gt;次に、以下を実行します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama create myModelName -f Modelfile
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;myModelName&lt;/code&gt; は、Ollama で使用するローカル モデル名です。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-f Modelfile&lt;/code&gt; は、この構成ファイルからモデルを作成することを意味します&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;作成が成功すると、この GGUF ファイルは直接呼び出すことができるローカル モデルになります。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-4-モデルを実行する&#34;&gt;ステップ 4: モデルを実行する
&lt;/h2&gt;&lt;p&gt;作成後に直接実行します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run myModelName
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;以降の使い方は基本的に&lt;code&gt;ollama pull&lt;/code&gt;のモデルと同じです。&lt;/p&gt;
&lt;h2 id=&#34;既存のモデルのモデルファイルを表示する方法&#34;&gt;既存のモデルのモデルファイルを表示する方法
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Modelfile&lt;/code&gt; の書き方がわからない場合は、既存のモデルの構成を直接表示できます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama show --modelfile llama3.2
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;このコマンドは、参照に適した &lt;code&gt;llama3.2&lt;/code&gt; の &lt;code&gt;Modelfile&lt;/code&gt; コンテンツを出力します。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;FROM&lt;/code&gt;の書き方&lt;/li&gt;
&lt;li&gt;テンプレートとシステム プロンプトはどのように構成されていますか?&lt;/li&gt;
&lt;li&gt;パラメータの宣言方法&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;このルートを使用するのが適切なのはどのような場合ですか&#34;&gt;このルートを使用するのが適切なのはどのような場合ですか?
&lt;/h2&gt;&lt;p&gt;次のシナリオは、Hugging Face からの手動インポートに適しています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;必要なモデルは、公式 Ollama ライブラリではまだ利用できません。&lt;/li&gt;
&lt;li&gt;特定の量子化バージョンを使用したい場合&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GGUF&lt;/code&gt; ファイルを手動でダウンロードしました&lt;/li&gt;
&lt;li&gt;モデルのパッケージ化方法をよりきめ細かく制御したい&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;公式ライブラリに既製のバージョンがある場合は、通常、&lt;code&gt;pull&lt;/code&gt; を直接使用する方が簡単です。ただし、特定の量子化やカスタム パッケージングが必要な場合は、&lt;code&gt;GGUF + Modelfile&lt;/code&gt; の方がより柔軟です。&lt;/p&gt;
&lt;h2 id=&#34;共通の注意点&#34;&gt;共通の注意点
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;FROM&lt;/code&gt; の後のパスは、実際の &lt;code&gt;.gguf&lt;/code&gt; ファイルの場所と一致している必要があります。&lt;/li&gt;
&lt;li&gt;ファイル名にスペースや特殊文字が含まれている場合は、最初に簡単な名前に変更することをお勧めします。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GGUF&lt;/code&gt; の量子化バージョンが異なると、メモリと速度に大きな影響を与えます。インポートが成功しても、操作がスムーズに行われるとは限りません。&lt;/li&gt;
&lt;li&gt;モデルがチャット モデルの場合、効果がより安定するように、後でその形式に応じてプロンプト テンプレートを調整する必要があります。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;結論は&#34;&gt;結論は
&lt;/h2&gt;&lt;p&gt;Hugging Face から &lt;code&gt;GGUF&lt;/code&gt; ファイルをダウンロードして Ollama にインポートするのは複雑ではありません。モデル ファイルを準備し、使用可能な最小限の &lt;code&gt;Modelfile&lt;/code&gt; を書き込み、その後 &lt;code&gt;ollama create&lt;/code&gt; を実行してサードパーティの &lt;code&gt;GGUF&lt;/code&gt; モデルを Ollama に接続します。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
