<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Hugging Face on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/hugging-face/</link>
        <description>Recent content in Hugging Face on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Mon, 25 May 2026 07:53:43 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/hugging-face/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>LongCat-Video-Avatar-1.5：美團開源音訊驅動數位人影片模型</title>
        <link>https://knightli.com/zh-tw/2026/05/25/longcat-video-avatar-1-5-audio-driven-avatar-video/</link>
        <pubDate>Mon, 25 May 2026 07:53:43 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/25/longcat-video-avatar-1-5-audio-driven-avatar-video/</guid>
        <description>&lt;p&gt;&lt;code&gt;LongCat-Video-Avatar-1.5&lt;/code&gt; 是美團 LongCat 團隊發布的音訊驅動數位人影片生成模型。&lt;/p&gt;
&lt;p&gt;專案地址：&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;它面向的不是普通文生影片，而是「給一段語音和角色條件，生成會說話、動作穩定、身分一致的影片」。從模型卡看，它支援 Audio-Text-to-Video、Audio-Text-Image-to-Video 和 Video Continuation，也支援單路音訊和多路音訊輸入。&lt;/p&gt;
&lt;p&gt;截至寫作時，Hugging Face 頁面顯示該模型採用 MIT License，標籤包括 &lt;code&gt;audio-text-to-video&lt;/code&gt;、&lt;code&gt;audio-image-text-to-video&lt;/code&gt;、&lt;code&gt;audio-driven-video-continuation&lt;/code&gt;、&lt;code&gt;avatar&lt;/code&gt; 和 &lt;code&gt;video-generation&lt;/code&gt;。&lt;/p&gt;
&lt;h2 id=&#34;這次-15-版更新了什麼&#34;&gt;這次 1.5 版更新了什麼
&lt;/h2&gt;&lt;p&gt;官方模型卡把 &lt;code&gt;LongCat-Video-Avatar 1.5&lt;/code&gt; 描述為一個更偏生產可用的開源框架，目標是提升音訊驅動人物影片生成的穩定性。&lt;/p&gt;
&lt;p&gt;幾個重點變化比較明確。&lt;/p&gt;
&lt;p&gt;第一，音訊編碼器從 Wav2Vec2 換成了 Whisper-Large。官方說法是，這能帶來更平滑、更自然的唇部動態。實際使用時，對口型同步要求高的場景，應該優先使用 &lt;code&gt;--model_type avatar-v1.5&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;第二，它強調長影片穩定性和身分一致性。數位人影片最怕兩類問題：短片裡嘴型對不上，長片裡臉、身體、衣服和動作逐漸漂移。LongCat-Video-Avatar-1.5 的賣點之一，就是同時關注 lip sync、full-body temporal stability 和 identity consistency。&lt;/p&gt;
&lt;p&gt;第三，它不只面向真人播報。模型卡提到它可以泛化到動漫、動物、多人互動、拿取物體等更複雜條件。這意味著它的應用範圍不局限於新聞播報式數位人，也可以覆蓋短劇、唱歌、電商口播、動畫角色和動物角色。&lt;/p&gt;
&lt;p&gt;第四，它提供 8-step 推理。官方提到透過 DMD2-based step distillation，把推理壓到 8 NFE，用來平衡服務成本和畫質。這對影片模型很關鍵，因為影片生成通常算力成本高，推理步數少會直接影響可部署性。&lt;/p&gt;
&lt;h2 id=&#34;支援哪些任務&#34;&gt;支援哪些任務
&lt;/h2&gt;&lt;p&gt;從模型卡和示例命令看，主要可以分成三類。&lt;/p&gt;
&lt;p&gt;第一類是單人動畫。&lt;/p&gt;
&lt;p&gt;它支援從音訊和文字生成影片，也支援從音訊和圖片生成影片。常見用途是給一段語音，讓某個角色說話、表演或播報。&lt;/p&gt;
&lt;p&gt;第二類是影片續寫。&lt;/p&gt;
&lt;p&gt;示例裡透過 &lt;code&gt;--num_segments=5&lt;/code&gt;、&lt;code&gt;--ref_img_index=10&lt;/code&gt;、&lt;code&gt;--mask_frame_range=3&lt;/code&gt; 等參數，讓模型在已有角色條件下繼續生成更長片段。這個能力適合長口播、課程講解、唱歌和連續表演。&lt;/p&gt;
&lt;p&gt;第三類是多人動畫。&lt;/p&gt;
&lt;p&gt;多人模式使用 &lt;code&gt;run_demo_avatar_multi_audio_to_video.py&lt;/code&gt;，支援多路音訊。模型卡裡還說明了兩種雙音訊模式：&lt;code&gt;audio_type&lt;/code&gt; 設為 &lt;code&gt;para&lt;/code&gt; 時是 merge mode，需要兩段等長音訊；設為 &lt;code&gt;add&lt;/code&gt; 時是 concatenation mode，可以按順序拼接兩段音訊，並用靜音填充間隔。&lt;/p&gt;
&lt;h2 id=&#34;安裝和模型下載&#34;&gt;安裝和模型下載
&lt;/h2&gt;&lt;p&gt;官方推薦先 clone LongCat-Video 倉庫：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; LongCat-Video
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;然後建立 Python 3.10 環境，並按 CUDA 版本安裝 PyTorch。模型卡給出的 CUDA 12.4 示例是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;conda create -n longcat-video &lt;span class=&#34;nv&#34;&gt;python&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;3.10
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;conda activate longcat-video
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install &lt;span class=&#34;nv&#34;&gt;torch&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;==&lt;/span&gt;2.6.0+cu124 &lt;span class=&#34;nv&#34;&gt;torchvision&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;==&lt;/span&gt;0.21.0+cu124 &lt;span class=&#34;nv&#34;&gt;torchaudio&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;==&lt;/span&gt;2.6.0 --index-url https://download.pytorch.org/whl/cu124
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;後續還需要安裝 &lt;code&gt;flash_attn==2.7.4.post1&lt;/code&gt;、專案依賴、&lt;code&gt;librosa&lt;/code&gt;、&lt;code&gt;ffmpeg&lt;/code&gt; 和 &lt;code&gt;requirements_avatar.txt&lt;/code&gt;。模型卡說明，配置裡預設啟用 FlashAttention-2，也可以改成 FlashAttention-3 或 xformers。&lt;/p&gt;
&lt;p&gt;模型權重可以用 &lt;code&gt;huggingface-cli&lt;/code&gt; 下載：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install &lt;span class=&#34;s2&#34;&gt;&amp;#34;huggingface_hub[cli]&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;這裡要注意，它依賴兩個權重目錄：一個是 LongCat-Video 基礎影片生成模型，另一個是 LongCat-Video-Avatar-1.5 數位人模型。&lt;/p&gt;
&lt;h2 id=&#34;快速推理示例&#34;&gt;快速推理示例
&lt;/h2&gt;&lt;p&gt;單人 Audio-Text-to-Video 示例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;torchrun --nproc_per_node&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; run_demo_avatar_single_audio_to_video.py --context_parallel_size&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; --checkpoint_dir&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;./weights/LongCat-Video-Avatar-1.5 --stage_1&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;at2v --input_json&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;單人 Audio-Image-to-Video 示例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;torchrun --nproc_per_node&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; run_demo_avatar_single_audio_to_video.py --context_parallel_size&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; --checkpoint_dir&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;./weights/LongCat-Video-Avatar-1.5  --stage_1&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;ai2v --input_json&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;多人 Audio-Image-to-Video 示例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;torchrun --nproc_per_node&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; run_demo_avatar_multi_audio_to_video.py --context_parallel_size&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; --checkpoint_dir&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;./weights/LongCat-Video-Avatar-1.5 --input_json&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;assets/avatar/multi_example_1.json --use_distill --model_type avatar-v1.5 --use_int8
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;這些命令有幾個共同點：都使用 &lt;code&gt;--model_type avatar-v1.5&lt;/code&gt;，都帶 &lt;code&gt;--use_distill&lt;/code&gt;，並且示例裡都開啟了 &lt;code&gt;--use_int8&lt;/code&gt;。模型卡明確說，&lt;code&gt;--use_distill&lt;/code&gt; 是使用 &lt;code&gt;avatar-v1.5&lt;/code&gt; 時需要的選項；&lt;code&gt;--use_int8&lt;/code&gt; 用於載入 INT8 量化 DiT 模型，降低顯存占用，並且只支援 &lt;code&gt;avatar-v1.5&lt;/code&gt;。&lt;/p&gt;
&lt;h2 id=&#34;參數怎麼調&#34;&gt;參數怎麼調
&lt;/h2&gt;&lt;p&gt;模型卡給了幾條實用建議。&lt;/p&gt;
&lt;p&gt;如果口型同步不夠好，可以調高 audio CFG。官方建議區間是 3 到 5，數值更高通常有利於同步。&lt;/p&gt;
&lt;p&gt;Prompt 不要寫得太短。更長、更具體的描述通常能帶來更好的角色一致性和自然度。比如角色外觀、動作、場景、衣著、表情都可以寫進去。&lt;/p&gt;
&lt;p&gt;如果出現重複動作，可以調整 &lt;code&gt;--ref_img_index&lt;/code&gt; 和 &lt;code&gt;--mask_frame_range&lt;/code&gt;。模型卡建議 &lt;code&gt;--ref_img_index&lt;/code&gt; 在 0 到 24 之間更利於一致性，設為 30 有助於減少重複動作；增大 &lt;code&gt;--mask_frame_range&lt;/code&gt; 也可能緩解重複，但過大可能引入偽影。&lt;/p&gt;
&lt;p&gt;解析度方面，模型相容 480P 和 720P，可以透過 &lt;code&gt;--resolution&lt;/code&gt; 控制。&lt;/p&gt;
&lt;h2 id=&#34;適合哪些場景&#34;&gt;適合哪些場景
&lt;/h2&gt;&lt;p&gt;官方預覽覆蓋了播報、表演、唱歌、電商行銷、多人對話、動畫和動物角色。&lt;/p&gt;
&lt;p&gt;從實際用途看，它比較適合這些方向：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;新聞播報、知識講解、課程口播。&lt;/li&gt;
&lt;li&gt;電商商品介紹和行銷短影片。&lt;/li&gt;
&lt;li&gt;虛擬主播、虛擬角色短劇、唱歌表演。&lt;/li&gt;
&lt;li&gt;動漫或動物角色的音訊驅動動畫。&lt;/li&gt;
&lt;li&gt;多人對話型數位人影片。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;它最值得關注的點，是把「口型同步」和「長影片穩定」放在同一個框架裡處理。很多數位人模型短片效果可以，但一旦拉長到多段生成，就容易出現身分漂移、動作重複、身體不穩。LongCat-Video-Avatar-1.5 明確把這些問題作為優化目標。&lt;/p&gt;
&lt;h2 id=&#34;使用時要注意什麼&#34;&gt;使用時要注意什麼
&lt;/h2&gt;&lt;p&gt;第一，它不是 Hugging Face Inference Provider 上直接可用的託管模型。頁面顯示目前沒有部署到 Inference Provider，實際使用需要自己準備環境、下載權重、執行 LongCat-Video 程式碼。&lt;/p&gt;
&lt;p&gt;第二，本地部署門檻不低。示例命令使用 &lt;code&gt;torchrun --nproc_per_node=2&lt;/code&gt; 和 &lt;code&gt;context_parallel_size=2&lt;/code&gt;，依賴 PyTorch、FlashAttention、ffmpeg、librosa 和多份模型權重。即使有 INT8 量化，仍然更適合有較強 GPU 環境的使用者。&lt;/p&gt;
&lt;p&gt;第三，數位人影片涉及肖像、聲音、隱私和內容安全。模型卡也提醒開發者需要自行評估準確性、安全性、公平性，並遵守資料保護、隱私和內容安全相關法律法規。用它生成真人形象或商業影片時，授權和合規比技術效果更重要。&lt;/p&gt;
&lt;p&gt;第四，不要把模型卡裡的通用 Hugging Face “Diffusers/Transformers 使用片段”當成本專案的完整推理方式。真正的 avatar 推理還是應該參考 LongCat-Video 倉庫和模型卡裡的 &lt;code&gt;run_demo_avatar_*&lt;/code&gt; 示例。&lt;/p&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;p&gt;LongCat-Video-Avatar-1.5 是一個值得關注的開源數位人影片模型。它不只是做一張臉說話，而是把音訊驅動、角色一致性、長影片穩定、多人音訊和蒸餾推理放到同一個框架裡。&lt;/p&gt;
&lt;p&gt;如果你關注虛擬主播、電商口播、課程講解、動畫角色或多人對話影片，它值得測試。但它更像研究和工程團隊可以部署調優的模型，不是開箱即用的網頁工具。真正落地時，要同時準備算力、素材授權、提示詞調參和內容合規流程。&lt;/p&gt;
&lt;h2 id=&#34;參考資料&#34;&gt;參考資料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;LongCat-Video-Avatar-1.5 Hugging Face：&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;LongCat-Video GitHub：&lt;a class=&#34;link&#34; href=&#34;https://github.com/meituan-longcat/LongCat-Video&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/meituan-longcat/LongCat-Video&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;LongCat-Video-Avatar-1.5 Technical Report：&lt;a class=&#34;link&#34; href=&#34;https://github.com/meituan-longcat/LongCat-Video&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/meituan-longcat/LongCat-Video&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Gemma 4 E4B 越獄版和官方普通版有什麼差別</title>
        <link>https://knightli.com/zh-tw/2026/04/18/gemma-4-e4b-uncensored-vs-official/</link>
        <pubDate>Sat, 18 Apr 2026 10:20:00 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/04/18/gemma-4-e4b-uncensored-vs-official/</guid>
        <description>&lt;p&gt;如果你看到 &lt;code&gt;HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive&lt;/code&gt; 這種模型，最關鍵的一點是：它&lt;strong&gt;不是 Google 新發的另一套 Gemma 4&lt;/strong&gt;，而是建立在官方 &lt;code&gt;google/gemma-4-E4B-it&lt;/code&gt; 之上的非官方衍生版本，重點是把模型行為調到「更少拒答」。&lt;/p&gt;
&lt;p&gt;所以它和普通版真正拉開的，通常不是底層架構，而是&lt;strong&gt;對齊策略與輸出風格&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id=&#34;這個衍生版模型卡自己怎麼說&#34;&gt;這個衍生版模型卡自己怎麼說
&lt;/h2&gt;&lt;p&gt;Hugging Face 模型卡裡，這個 HauhauCS 版本明確寫了幾件事：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;它基於 &lt;code&gt;google/gemma-4-E4B-it&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;它聲稱「沒有改資料集或能力」&lt;/li&gt;
&lt;li&gt;它聲稱變化只是「去掉拒答」&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Aggressive&lt;/code&gt; 版本被描述為「完全解鎖，不會拒絕提示詞」&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這些是作者自己的說法，不是第三方獨立測評。但從定位來看已經很清楚：這就是一個以「減少安全拒答」為目標的非官方衍生版。&lt;/p&gt;
&lt;h2 id=&#34;官方版-vs-所謂越獄版&#34;&gt;官方版 vs 所謂「越獄版」
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;維度&lt;/th&gt;
          &lt;th&gt;官方 &lt;code&gt;google/gemma-4-E4B-it&lt;/code&gt;&lt;/th&gt;
          &lt;th&gt;&lt;code&gt;Gemma-4-E4B-Uncensored-HauhauCS-Aggressive&lt;/code&gt;&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;來源&lt;/td&gt;
          &lt;td&gt;Google 官方發布&lt;/td&gt;
          &lt;td&gt;Hugging Face 第三方衍生版&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;基礎模型&lt;/td&gt;
          &lt;td&gt;Gemma 4 E4B 指令微調版&lt;/td&gt;
          &lt;td&gt;同一模型家族，且模型卡明確寫明基於 &lt;code&gt;google/gemma-4-E4B-it&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;核心目標&lt;/td&gt;
          &lt;td&gt;通用助理能力 + 負責任使用框架&lt;/td&gt;
          &lt;td&gt;盡量減少拒答，讓模型繼續輸出&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;安全取向&lt;/td&gt;
          &lt;td&gt;與 Gemma 家族的安全文件、禁止用途政策一致&lt;/td&gt;
          &lt;td&gt;明確削弱拒答與護欄行為&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;回答風格&lt;/td&gt;
          &lt;td&gt;更可能拒絕、轉向或保守回答敏感請求&lt;/td&gt;
          &lt;td&gt;更可能直接繼續回答原本會被擋下的問題&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;風險水位&lt;/td&gt;
          &lt;td&gt;預設風險較低，但仍不代表絕對安全&lt;/td&gt;
          &lt;td&gt;預設風險更高，更容易輸出不安全或不合規內容&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;用於產品/團隊&lt;/td&gt;
          &lt;td&gt;更容易通過評審與落地&lt;/td&gt;
          &lt;td&gt;更難用於公開產品、企業環境或合規場景&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;額外防護需求&lt;/td&gt;
          &lt;td&gt;仍需要應用層防護&lt;/td&gt;
          &lt;td&gt;更依賴你自己做額外審核、過濾與限制&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;核心差異是對齊方式變了不是能力等級突然提高&#34;&gt;核心差異是「對齊方式」變了，不是「能力等級」突然提高
&lt;/h2&gt;&lt;p&gt;很多人會把 &lt;code&gt;uncensored&lt;/code&gt; 理解成「更強」，這通常不是精準的判斷。&lt;/p&gt;
&lt;p&gt;對這種衍生版來說，最先變的是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;拒答頻率&lt;/li&gt;
&lt;li&gt;對敏感請求的服從程度&lt;/li&gt;
&lt;li&gt;最終答案裡還剩多少安全過濾&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;而不會因為名稱裡寫了 &lt;code&gt;Uncensored&lt;/code&gt;，就自動代表下面這些一起升級：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;模型架構突然更強&lt;/li&gt;
&lt;li&gt;上下文視窗突然更大&lt;/li&gt;
&lt;li&gt;多模態能力突然更完整&lt;/li&gt;
&lt;li&gt;推理上限顯著更高&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;更準確的理解是：它通常只是&lt;strong&gt;同一模型家族裡，行為調校不同的一版&lt;/strong&gt;，而不是更高階的新模型。&lt;/p&gt;
&lt;h2 id=&#34;為什麼官方普通版會更保守&#34;&gt;為什麼官方普通版會更保守
&lt;/h2&gt;&lt;p&gt;Google 的 Gemma 官方資料一直把這個系列放在「負責任 AI 開發」的框架裡。Gemma 模型卡會明確談到誤用、有害內容、隱私與偏見等風險；Gemma Prohibited Use Policy 也明確禁止把 Gemma 或其衍生模型用於：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;危險、違法或惡意活動&lt;/li&gt;
&lt;li&gt;生成有害、誤導、欺騙性內容&lt;/li&gt;
&lt;li&gt;覆蓋或繞過安全過濾&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以官方版不是「剛好比較保守」，而是從文件、授權與部署定位上，本來就那樣設計。&lt;/p&gt;
&lt;h2 id=&#34;什麼情況下普通版更適合&#34;&gt;什麼情況下普通版更適合
&lt;/h2&gt;&lt;p&gt;如果你更在意下面這些，優先用官方 &lt;code&gt;google/gemma-4-E4B-it&lt;/code&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;產品部署&lt;/li&gt;
&lt;li&gt;團隊協作&lt;/li&gt;
&lt;li&gt;企業或對外場景&lt;/li&gt;
&lt;li&gt;較低的政策與法律風險&lt;/li&gt;
&lt;li&gt;更容易解釋與審查的輸出行為&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;對大多數正常應用來說，這通常才是預設選項。&lt;/p&gt;
&lt;h2 id=&#34;什麼情況下有人會去試越獄版&#34;&gt;什麼情況下有人會去試越獄版
&lt;/h2&gt;&lt;p&gt;選這類 uncensored 衍生版的人，常見目的通常是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;本地私人實驗&lt;/li&gt;
&lt;li&gt;測試官方版是否「太早拒答」&lt;/li&gt;
&lt;li&gt;角色扮演或更開放的創作場景&lt;/li&gt;
&lt;li&gt;比較不同對齊版本的行為差異&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但對應的代價也很明確：模型提供方少做的那部分安全約束，需要你自己補回來。&lt;/p&gt;
&lt;h2 id=&#34;結論&#34;&gt;結論
&lt;/h2&gt;&lt;p&gt;所謂 Gemma 4 E4B「越獄版」和官方普通版，最本質的差異其實是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;官方版追求的是「有護欄的可用能力」&lt;/li&gt;
&lt;li&gt;越獄版追求的是「更少拒答的可輸出性」&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;它&lt;strong&gt;不自動等於更強&lt;/strong&gt;，更多只是&lt;strong&gt;更放開&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;如果你的目標是穩定、可解釋、適合部署，先用官方版更合理。&lt;br&gt;
如果你的目標是本地實驗，而且你清楚知道安全、合規與輸出風險都要自己承擔，那這類 uncensored 衍生版可以當成「行為差異版本」來測試，但不應該直接理解成普通版的全面升級替代品。&lt;/p&gt;
&lt;h2 id=&#34;參考來源&#34;&gt;參考來源
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Hugging Face: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Hugging Face: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/google/gemma-4-E4B-it&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;google/gemma-4-E4B-it&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Google AI for Developers: &lt;a class=&#34;link&#34; href=&#34;https://ai.google.dev/gemma/prohibited_use_policy&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Gemma Prohibited Use Policy&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Google AI for Developers: &lt;a class=&#34;link&#34; href=&#34;https://ai.google.dev/gemma/docs/core/model_card&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Gemma model card&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>llama-cli -hf 下載 Hugging Face 模型預設儲存在哪裡</title>
        <link>https://knightli.com/zh-tw/2026/04/17/llama-cli-hf-download-default-cache-path/</link>
        <pubDate>Fri, 17 Apr 2026 14:48:04 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/04/17/llama-cli-hf-download-default-cache-path/</guid>
        <description>&lt;p&gt;如果你使用的是 &lt;code&gt;llama-cli&lt;/code&gt; 直接從 Hugging Face 下載並執行模型，例如：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf unsloth/gemma-4-E4B-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;這是 &lt;code&gt;llama.cpp&lt;/code&gt; 內建的 Hugging Face 下載能力。新版 &lt;code&gt;llama.cpp&lt;/code&gt; 會把 &lt;code&gt;-hf&lt;/code&gt; 下載的模型放進標準 Hugging Face Hub 快取目錄。&lt;/p&gt;
&lt;h2 id=&#34;預設快取位置&#34;&gt;預設快取位置
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;llama-cli -hf&lt;/code&gt; 下載的模型快取位置優先由 &lt;code&gt;LLAMA_CACHE&lt;/code&gt; 環境變數控制。如果沒有設定 &lt;code&gt;LLAMA_CACHE&lt;/code&gt;，則會繼續檢查 Hugging Face 相關快取變數，例如 &lt;code&gt;HF_HUB_CACHE&lt;/code&gt;、&lt;code&gt;HUGGINGFACE_HUB_CACHE&lt;/code&gt; 和 &lt;code&gt;HF_HOME&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;如果這些變數都沒有設定，常見預設路徑如下：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;系統&lt;/th&gt;
          &lt;th&gt;預設快取目錄&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Linux&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;~/.cache/huggingface/hub&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;macOS&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;~/.cache/huggingface/hub&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Windows&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;%USERPROFILE%\.cache\huggingface\hub&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;在 Windows 上，&lt;code&gt;%USERPROFILE%&lt;/code&gt; 通常對應：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;C:\Users\用户名
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;所以預設快取目錄大致是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;C:\Users\用户名\.cache\huggingface\hub
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;想修改-llama-cli-的快取目錄怎麼辦&#34;&gt;想修改 llama-cli 的快取目錄怎麼辦
&lt;/h2&gt;&lt;p&gt;可以設定 &lt;code&gt;LLAMA_CACHE&lt;/code&gt;，把模型快取放到指定磁碟或目錄。也可以依照 Hugging Face 的習慣設定 &lt;code&gt;HF_HOME&lt;/code&gt;，此時實際 Hub 快取目錄會是 &lt;code&gt;$HF_HOME/hub&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;Windows CMD 暫時設定範例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;set LLAMA_CACHE=D:\models\llama-cache
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf unsloth/gemma-4-E4B-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;PowerShell 暫時設定範例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-powershell&#34; data-lang=&#34;powershell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;$env:LLAMA_CACHE&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;D:\models\llama-cache&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;llama-cli&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-hf&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;unsloth&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;/&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;gemma&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;4&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;-E4B-it-GGUF&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Linux / macOS 暫時設定範例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;LLAMA_CACHE&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;/data/models/llama-cache
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf unsloth/gemma-4-E4B-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;llama-cli -hf ...&lt;/code&gt; 使用的是 &lt;code&gt;llama.cpp&lt;/code&gt; 下載邏輯，但新版預設會落到 Hugging Face Hub 快取。&lt;/li&gt;
&lt;li&gt;Linux / macOS 預設：&lt;code&gt;~/.cache/huggingface/hub&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Windows 預設：&lt;code&gt;%USERPROFILE%\.cache\huggingface\hub&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;想換目錄：設定 &lt;code&gt;LLAMA_CACHE&lt;/code&gt;，或設定 &lt;code&gt;HF_HOME&lt;/code&gt; / &lt;code&gt;HF_HUB_CACHE&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Windows 下 llama-cli 直連 Hugging Face 出現 SSL 憑證驗證失敗怎麼辦</title>
        <link>https://knightli.com/zh-tw/2026/04/17/llama-cli-hugging-face-ssl-certificate-failed-on-windows/</link>
        <pubDate>Fri, 17 Apr 2026 14:20:29 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/04/17/llama-cli-hugging-face-ssl-certificate-failed-on-windows/</guid>
        <description>&lt;p&gt;如果你在 Windows 下執行下面這條命令：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf unsloth/gemma-4-E4B-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;並看到類似錯誤：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;get_repo_commit: error: HTTPLIB failed: SSL server verification failed
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;error: failed to download model from Hugging Face
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;通常不是 CUDA 或 &lt;code&gt;llama.cpp&lt;/code&gt; 本身有問題，而是程式在目前環境裡沒有正確取得系統憑證鏈，導致 HTTPS 驗證失敗。&lt;/p&gt;
&lt;p&gt;從錯誤訊息來看，&lt;code&gt;ggml-rpc.dll&lt;/code&gt; 和 &lt;code&gt;ggml-cpu-alderlake.dll&lt;/code&gt; 都已經正常載入，代表執行環境本身大致可用，問題主要集中在模型下載階段。&lt;/p&gt;
&lt;h2 id=&#34;最省事的辦法先手動下載模型&#34;&gt;最省事的辦法：先手動下載模型
&lt;/h2&gt;&lt;p&gt;如果你只是想盡快跑起來，本機手動下載通常最穩。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;打開對應的 Hugging Face 倉庫頁面。&lt;/li&gt;
&lt;li&gt;在 &lt;code&gt;Files and versions&lt;/code&gt; 裡下載需要的 &lt;code&gt;.gguf&lt;/code&gt; 檔案。&lt;/li&gt;
&lt;li&gt;下載完成後，直接用本機檔案路徑執行：&lt;/li&gt;
&lt;/ol&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-gdscript3&#34; data-lang=&#34;gdscript3&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;llama&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;cli&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;m&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;C&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;\&lt;span class=&#34;n&#34;&gt;Users&lt;/span&gt;\&lt;span class=&#34;n&#34;&gt;knightli&lt;/span&gt;\&lt;span class=&#34;n&#34;&gt;Downloads&lt;/span&gt;\&lt;span class=&#34;n&#34;&gt;gemma&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;4&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;e4b&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;it&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;gguf&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;這樣可以繞過 &lt;code&gt;-hf&lt;/code&gt; 下載階段的 SSL 驗證問題，適合先確認模型能不能正常推理。&lt;/p&gt;
&lt;h2 id=&#34;如果還想繼續用--hf-自動下載&#34;&gt;如果還想繼續用 &lt;code&gt;-hf&lt;/code&gt; 自動下載
&lt;/h2&gt;&lt;p&gt;可以手動指定憑證檔路徑，讓程式在目前工作階段裡找到可用的 CA 憑證。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;cacert.pem&lt;/code&gt; 可以從 curl 官方維護的 CA Extract 頁面取得：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;頁面地址：&lt;a class=&#34;link&#34; href=&#34;https://curl.se/docs/caextract.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://curl.se/docs/caextract.html&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;直接下載：&lt;a class=&#34;link&#34; href=&#34;https://curl.se/ca/cacert.pem&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://curl.se/ca/cacert.pem&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果用瀏覽器下載，打開上面的直接下載地址後儲存為 &lt;code&gt;cacert.pem&lt;/code&gt; 即可。也可以在 PowerShell 裡下載到固定目錄，例如：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-powershell&#34; data-lang=&#34;powershell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;New-Item&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-ItemType&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;Directory&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-Force&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;C:&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;\&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;certs&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;Invoke-WebRequest&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-Uri&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;https&lt;/span&gt;&lt;span class=&#34;err&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;//&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;curl&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;se&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;/&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;ca&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;/&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;cacert&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;py&#34;&gt;pem&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;-OutFile&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;C:&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;\&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;certs&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;\&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;cacert&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;py&#34;&gt;pem&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;下載完成後，在命令列裡設定：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;set SSL_CERT_FILE=C:\certs\cacert.pem
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;set CURL_CA_BUNDLE=C:\certs\cacert.pem
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;再重新執行原本的命令：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf unsloth/gemma-4-E4B-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果問題確實來自憑證鏈，這種方式通常可以直接解決。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>llama.cpp 如何從 Hugging Face 取得 GGUF 模型</title>
        <link>https://knightli.com/zh-tw/2026/04/12/llama-cpp-hugging-face-gguf-models/</link>
        <pubDate>Sun, 12 Apr 2026 09:31:38 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/04/12/llama-cpp-hugging-face-gguf-models/</guid>
        <description>&lt;p&gt;&lt;code&gt;llama.cpp&lt;/code&gt; 可以直接搭配 Hugging Face 上的 GGUF 模型使用，不一定要先手動把檔案下載到本機。&lt;/p&gt;
&lt;p&gt;如果模型倉庫本身已經提供 GGUF 檔案，可以直接在命令列中使用 &lt;code&gt;-hf&lt;/code&gt; 參數，例如：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf ggml-org/gemma-3-1b-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;預設情況下，這個參數會從 Hugging Face 下載模型。&lt;br&gt;
如果你使用的是其他相容 Hugging Face API 的模型託管服務，也可以透過環境變數 &lt;code&gt;MODEL_ENDPOINT&lt;/code&gt; 切換下載端點。&lt;/p&gt;
&lt;p&gt;需要注意的是，&lt;code&gt;llama.cpp&lt;/code&gt; 只能直接使用 &lt;code&gt;GGUF&lt;/code&gt; 格式。&lt;br&gt;
如果拿到的是其他格式的模型檔案，就需要先用倉庫中的 &lt;code&gt;convert_*.py&lt;/code&gt; 腳本轉換成 &lt;code&gt;GGUF&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;Hugging Face 也提供了一些和 &lt;code&gt;llama.cpp&lt;/code&gt; 相關的線上工具，常見用途包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;把模型轉換為 &lt;code&gt;GGUF&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;對模型做量化，縮小體積&lt;/li&gt;
&lt;li&gt;轉換 LoRA 適配器&lt;/li&gt;
&lt;li&gt;在線編輯 GGUF 中繼資料&lt;/li&gt;
&lt;li&gt;直接託管 &lt;code&gt;llama.cpp&lt;/code&gt; 推理服務&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只想記住一個最實用的結論：優先找已經提供 &lt;code&gt;GGUF&lt;/code&gt; 的模型倉庫，然後直接用 &lt;code&gt;llama-cli -hf &amp;lt;user&amp;gt;/&amp;lt;model&amp;gt;&lt;/code&gt;，通常是最省事的做法。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Hugging Face 選擇 Llama 的 GGUF 模型時，量化怎麼選：從 Q8 到 Q2 的實用建議</title>
        <link>https://knightli.com/zh-tw/2026/04/11/llama-gguf-quantization-selection/</link>
        <pubDate>Sat, 11 Apr 2026 20:07:29 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/04/11/llama-gguf-quantization-selection/</guid>
        <description>&lt;p&gt;在 Hugging Face 選擇 Llama 的 GGUF 模型時，可以先把量化等級理解成「解析度」。解析度越低，所需 VRAM/RAM 越少，但品質也會逐步下降。&lt;/p&gt;
&lt;h2 id=&#34;先理解-3216-與-q-系列&#34;&gt;先理解 32、16 與 Q 系列
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;32&lt;/code&gt;：可視為原始未壓縮版本，品質最高，但硬體需求非常高。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;16&lt;/code&gt;：仍接近原始品質，體積約為 &lt;code&gt;32&lt;/code&gt; 的一半，實用性更高。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q8&lt;/code&gt;：從這裡開始是量化版本，常見寫法為 &lt;code&gt;Q8_0&lt;/code&gt; 或 &lt;code&gt;Q8&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6&lt;/code&gt;、&lt;code&gt;Q5&lt;/code&gt;、&lt;code&gt;Q4&lt;/code&gt;、&lt;code&gt;Q3&lt;/code&gt;、&lt;code&gt;Q2&lt;/code&gt;：數字越小，資源占用越低，品質損失也越明顯。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;k_m--k_s-是什麼&#34;&gt;&lt;code&gt;K_M&lt;/code&gt; / &lt;code&gt;K_S&lt;/code&gt; 是什麼
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;K_M&lt;/code&gt; 與 &lt;code&gt;K_S&lt;/code&gt; 代表混合量化策略：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;大部分權重使用目前量化等級&lt;/li&gt;
&lt;li&gt;部分關鍵區塊保留較高精度&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以同等級下，&lt;code&gt;Qx_K_M&lt;/code&gt; 或 &lt;code&gt;Qx_K_S&lt;/code&gt; 通常會比純 &lt;code&gt;Qx&lt;/code&gt; 稍好。&lt;/p&gt;
&lt;h2 id=&#34;實用選型建議&#34;&gt;實用選型建議
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;硬體足夠：優先 &lt;code&gt;Q8&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;記憶體或顯存吃緊：逐步下調到 &lt;code&gt;Q6&lt;/code&gt; / &lt;code&gt;Q5&lt;/code&gt; / &lt;code&gt;Q4&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;建議下限：盡量不要低於 &lt;code&gt;Q4&lt;/code&gt;，可優先 &lt;code&gt;Q4_K_M&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3&lt;/code&gt; 以下：可見品質下降會更明顯。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;品質梯度高到低&#34;&gt;品質梯度（高到低）
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;32&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;16&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; 在這一點之上，品質是一樣的，但是硬體要求太瘋狂了 &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q8&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; 這是典型的甜蜜點 &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q4_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; 在這一點之下，品質下降變得可見 &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只記一個結論：大多數情況先從 &lt;code&gt;Q8&lt;/code&gt; 或 &lt;code&gt;Q6_K_M&lt;/code&gt; 開始，不夠再降到 &lt;code&gt;Q5&lt;/code&gt; 或 &lt;code&gt;Q4_K_M&lt;/code&gt;，通常更穩妥。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>從 Hugging Face 下載 GGUF 模型並匯入 Ollama</title>
        <link>https://knightli.com/zh-tw/2026/04/09/import-huggingface-gguf-into-ollama/</link>
        <pubDate>Thu, 09 Apr 2026 11:00:07 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/04/09/import-huggingface-gguf-into-ollama/</guid>
        <description>&lt;p&gt;如果某個模型在 Ollama 官方庫裡沒有現成版本，或你想使用 Hugging Face 上的特定 &lt;code&gt;GGUF&lt;/code&gt; 檔案，就可以先手動下載，再匯入到 Ollama。&lt;/p&gt;
&lt;h2 id=&#34;第-1-步從-hugging-face-下載-gguf-檔案&#34;&gt;第 1 步：從 Hugging Face 下載 GGUF 檔案
&lt;/h2&gt;&lt;p&gt;先到 Hugging Face 找到目標模型對應的 &lt;code&gt;GGUF&lt;/code&gt; 檔案。通常你會看到多個量化版本，例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;要選哪個版本，取決於你的 VRAM、RAM，以及你對速度與品質的取捨。下載後請把 &lt;code&gt;.gguf&lt;/code&gt; 檔案放在固定目錄，後續才能在 &lt;code&gt;Modelfile&lt;/code&gt; 中直接引用。&lt;/p&gt;
&lt;h2 id=&#34;第-2-步撰寫-modelfile&#34;&gt;第 2 步：撰寫 Modelfile
&lt;/h2&gt;&lt;p&gt;在模型檔案所在目錄建立一個 &lt;code&gt;Modelfile&lt;/code&gt;。最基本的寫法如下：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;FROM ./model.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果檔名不同，請改成實際檔名，例如：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;FROM ./gemma-3-12b-it-q4_k_m.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果你只是先讓模型跑起來，通常這一行 &lt;code&gt;FROM&lt;/code&gt; 就夠了。&lt;/p&gt;
&lt;h2 id=&#34;第-3-步匯入到-ollama&#34;&gt;第 3 步：匯入到 Ollama
&lt;/h2&gt;&lt;p&gt;接著執行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama create myModelName -f Modelfile
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;myModelName&lt;/code&gt; 是你想在 Ollama 內使用的本地模型名稱&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-f Modelfile&lt;/code&gt; 表示用這個設定檔建立模型&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;建立成功後，這個 GGUF 檔案就會成為可直接呼叫的本地模型。&lt;/p&gt;
&lt;h2 id=&#34;第-4-步執行模型&#34;&gt;第 4 步：執行模型
&lt;/h2&gt;&lt;p&gt;建立完成後直接執行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run myModelName
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;之後它的使用方式就和用 &lt;code&gt;ollama pull&lt;/code&gt; 拉下來的模型差不多。&lt;/p&gt;
&lt;h2 id=&#34;如何查看現有模型的-modelfile&#34;&gt;如何查看現有模型的 Modelfile
&lt;/h2&gt;&lt;p&gt;如果你不確定 &lt;code&gt;Modelfile&lt;/code&gt; 要怎麼寫，可以直接查看現有模型的設定：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama show --modelfile llama3.2
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;這個命令會輸出 &lt;code&gt;llama3.2&lt;/code&gt; 的 &lt;code&gt;Modelfile&lt;/code&gt;，很適合作為參考：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;FROM&lt;/code&gt; 該怎麼寫&lt;/li&gt;
&lt;li&gt;模板與 system prompt 如何組織&lt;/li&gt;
&lt;li&gt;參數如何宣告&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;什麼時候適合用這條路線&#34;&gt;什麼時候適合用這條路線
&lt;/h2&gt;&lt;p&gt;以下情境很適合用 Hugging Face 手動匯入流程：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Ollama 官方庫裡還沒有你要的模型&lt;/li&gt;
&lt;li&gt;你想使用特定的量化版本&lt;/li&gt;
&lt;li&gt;你已經手動下載好 &lt;code&gt;GGUF&lt;/code&gt; 檔案&lt;/li&gt;
&lt;li&gt;你希望更細緻地控制模型封裝方式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果 Ollama 官方庫已經有現成版本，直接 &lt;code&gt;pull&lt;/code&gt; 通常更省事；但當你需要特定量化或自訂封裝時，&lt;code&gt;GGUF + Modelfile&lt;/code&gt; 會更有彈性。&lt;/p&gt;
&lt;h2 id=&#34;常見注意事項&#34;&gt;常見注意事項
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;FROM&lt;/code&gt; 後面的路徑必須和實際 &lt;code&gt;.gguf&lt;/code&gt; 檔案位置一致。&lt;/li&gt;
&lt;li&gt;如果檔名包含空格或特殊字元，建議先改成較簡單的名稱。&lt;/li&gt;
&lt;li&gt;不同 &lt;code&gt;GGUF&lt;/code&gt; 量化版本對記憶體與速度影響很大，匯入成功不代表執行一定順暢。&lt;/li&gt;
&lt;li&gt;若模型是聊天模型，後續通常仍需依其格式調整 prompt 模板，效果才會更穩定。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;結論&#34;&gt;結論
&lt;/h2&gt;&lt;p&gt;從 Hugging Face 下載 &lt;code&gt;GGUF&lt;/code&gt; 檔案再匯入 Ollama 並不複雜。準備好模型檔案、寫一個最小可用的 &lt;code&gt;Modelfile&lt;/code&gt;，再執行 &lt;code&gt;ollama create&lt;/code&gt;，就能把第三方 &lt;code&gt;GGUF&lt;/code&gt; 模型接入 Ollama 工作流。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
