Hugging Face on KnightLi的博客

LongCat-Video-Avatar-1.5：美團開源音訊驅動數位人影片模型

Mon, 25 May 2026 07:53:43 +0800

LongCat-Video-Avatar-1.5 是美團 LongCat 團隊發布的音訊驅動數位人影片生成模型。

專案地址：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

它面向的不是普通文生影片，而是「給一段語音和角色條件，生成會說話、動作穩定、身分一致的影片」。從模型卡看，它支援 Audio-Text-to-Video、Audio-Text-Image-to-Video 和 Video Continuation，也支援單路音訊和多路音訊輸入。

截至寫作時，Hugging Face 頁面顯示該模型採用 MIT License，標籤包括 audio-text-to-video、audio-image-text-to-video、audio-driven-video-continuation、avatar 和 video-generation。

這次 1.5 版更新了什麼

官方模型卡把 LongCat-Video-Avatar 1.5 描述為一個更偏生產可用的開源框架，目標是提升音訊驅動人物影片生成的穩定性。

幾個重點變化比較明確。

第一，音訊編碼器從 Wav2Vec2 換成了 Whisper-Large。官方說法是，這能帶來更平滑、更自然的唇部動態。實際使用時，對口型同步要求高的場景，應該優先使用 --model_type avatar-v1.5。

第二，它強調長影片穩定性和身分一致性。數位人影片最怕兩類問題：短片裡嘴型對不上，長片裡臉、身體、衣服和動作逐漸漂移。LongCat-Video-Avatar-1.5 的賣點之一，就是同時關注 lip sync、full-body temporal stability 和 identity consistency。

第三，它不只面向真人播報。模型卡提到它可以泛化到動漫、動物、多人互動、拿取物體等更複雜條件。這意味著它的應用範圍不局限於新聞播報式數位人，也可以覆蓋短劇、唱歌、電商口播、動畫角色和動物角色。

第四，它提供 8-step 推理。官方提到透過 DMD2-based step distillation，把推理壓到 8 NFE，用來平衡服務成本和畫質。這對影片模型很關鍵，因為影片生成通常算力成本高，推理步數少會直接影響可部署性。

支援哪些任務

從模型卡和示例命令看，主要可以分成三類。

第一類是單人動畫。

它支援從音訊和文字生成影片，也支援從音訊和圖片生成影片。常見用途是給一段語音，讓某個角色說話、表演或播報。

第二類是影片續寫。

示例裡透過 --num_segments=5、--ref_img_index=10、--mask_frame_range=3 等參數，讓模型在已有角色條件下繼續生成更長片段。這個能力適合長口播、課程講解、唱歌和連續表演。

第三類是多人動畫。

多人模式使用 run_demo_avatar_multi_audio_to_video.py，支援多路音訊。模型卡裡還說明了兩種雙音訊模式：audio_type 設為 para 時是 merge mode，需要兩段等長音訊；設為 add 時是 concatenation mode，可以按順序拼接兩段音訊，並用靜音填充間隔。

安裝和模型下載

官方推薦先 clone LongCat-Video 倉庫：

1
2

git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video

然後建立 Python 3.10 環境，並按 CUDA 版本安裝 PyTorch。模型卡給出的 CUDA 12.4 示例是：

1
2
3

conda create -n longcat-video python=3.10
conda activate longcat-video
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

後續還需要安裝 flash_attn==2.7.4.post1、專案依賴、librosa、ffmpeg 和 requirements_avatar.txt。模型卡說明，配置裡預設啟用 FlashAttention-2，也可以改成 FlashAttention-3 或 xformers。

模型權重可以用 huggingface-cli 下載：

1
2
3

pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5

這裡要注意，它依賴兩個權重目錄：一個是 LongCat-Video 基礎影片生成模型，另一個是 LongCat-Video-Avatar-1.5 數位人模型。

快速推理示例

單人 Audio-Text-to-Video 示例：

torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=at2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

單人 Audio-Image-to-Video 示例：

torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5  --stage_1=ai2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

多人 Audio-Image-to-Video 示例：

torchrun --nproc_per_node=2 run_demo_avatar_multi_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --input_json=assets/avatar/multi_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

這些命令有幾個共同點：都使用 --model_type avatar-v1.5，都帶 --use_distill，並且示例裡都開啟了 --use_int8。模型卡明確說，--use_distill 是使用 avatar-v1.5 時需要的選項；--use_int8 用於載入 INT8 量化 DiT 模型，降低顯存占用，並且只支援 avatar-v1.5。

參數怎麼調

模型卡給了幾條實用建議。

如果口型同步不夠好，可以調高 audio CFG。官方建議區間是 3 到 5，數值更高通常有利於同步。

Prompt 不要寫得太短。更長、更具體的描述通常能帶來更好的角色一致性和自然度。比如角色外觀、動作、場景、衣著、表情都可以寫進去。

如果出現重複動作，可以調整 --ref_img_index 和 --mask_frame_range。模型卡建議 --ref_img_index 在 0 到 24 之間更利於一致性，設為 30 有助於減少重複動作；增大 --mask_frame_range 也可能緩解重複，但過大可能引入偽影。

解析度方面，模型相容 480P 和 720P，可以透過 --resolution 控制。

適合哪些場景

官方預覽覆蓋了播報、表演、唱歌、電商行銷、多人對話、動畫和動物角色。

從實際用途看，它比較適合這些方向：

新聞播報、知識講解、課程口播。
電商商品介紹和行銷短影片。
虛擬主播、虛擬角色短劇、唱歌表演。
動漫或動物角色的音訊驅動動畫。
多人對話型數位人影片。

它最值得關注的點，是把「口型同步」和「長影片穩定」放在同一個框架裡處理。很多數位人模型短片效果可以，但一旦拉長到多段生成，就容易出現身分漂移、動作重複、身體不穩。LongCat-Video-Avatar-1.5 明確把這些問題作為優化目標。

使用時要注意什麼

第一，它不是 Hugging Face Inference Provider 上直接可用的託管模型。頁面顯示目前沒有部署到 Inference Provider，實際使用需要自己準備環境、下載權重、執行 LongCat-Video 程式碼。

第二，本地部署門檻不低。示例命令使用 torchrun --nproc_per_node=2 和 context_parallel_size=2，依賴 PyTorch、FlashAttention、ffmpeg、librosa 和多份模型權重。即使有 INT8 量化，仍然更適合有較強 GPU 環境的使用者。

第三，數位人影片涉及肖像、聲音、隱私和內容安全。模型卡也提醒開發者需要自行評估準確性、安全性、公平性，並遵守資料保護、隱私和內容安全相關法律法規。用它生成真人形象或商業影片時，授權和合規比技術效果更重要。

第四，不要把模型卡裡的通用 Hugging Face “Diffusers/Transformers 使用片段”當成本專案的完整推理方式。真正的 avatar 推理還是應該參考 LongCat-Video 倉庫和模型卡裡的 run_demo_avatar_* 示例。

小結

LongCat-Video-Avatar-1.5 是一個值得關注的開源數位人影片模型。它不只是做一張臉說話，而是把音訊驅動、角色一致性、長影片穩定、多人音訊和蒸餾推理放到同一個框架裡。

如果你關注虛擬主播、電商口播、課程講解、動畫角色或多人對話影片，它值得測試。但它更像研究和工程團隊可以部署調優的模型，不是開箱即用的網頁工具。真正落地時，要同時準備算力、素材授權、提示詞調參和內容合規流程。

參考資料

LongCat-Video-Avatar-1.5 Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
LongCat-Video GitHub：https://github.com/meituan-longcat/LongCat-Video
LongCat-Video-Avatar-1.5 Technical Report：https://github.com/meituan-longcat/LongCat-Video

Gemma 4 E4B 越獄版和官方普通版有什麼差別

Sat, 18 Apr 2026 10:20:00 +0800

如果你看到 HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive 這種模型，最關鍵的一點是：它不是 Google 新發的另一套 Gemma 4，而是建立在官方 google/gemma-4-E4B-it 之上的非官方衍生版本，重點是把模型行為調到「更少拒答」。

所以它和普通版真正拉開的，通常不是底層架構，而是對齊策略與輸出風格。

這個衍生版模型卡自己怎麼說

Hugging Face 模型卡裡，這個 HauhauCS 版本明確寫了幾件事：

它基於 google/gemma-4-E4B-it
它聲稱「沒有改資料集或能力」
它聲稱變化只是「去掉拒答」
Aggressive 版本被描述為「完全解鎖，不會拒絕提示詞」

這些是作者自己的說法，不是第三方獨立測評。但從定位來看已經很清楚：這就是一個以「減少安全拒答」為目標的非官方衍生版。

官方版 vs 所謂「越獄版」

維度	官方 `google/gemma-4-E4B-it`	`Gemma-4-E4B-Uncensored-HauhauCS-Aggressive`
來源	Google 官方發布	Hugging Face 第三方衍生版
基礎模型	Gemma 4 E4B 指令微調版	同一模型家族，且模型卡明確寫明基於 `google/gemma-4-E4B-it`
核心目標	通用助理能力 + 負責任使用框架	盡量減少拒答，讓模型繼續輸出
安全取向	與 Gemma 家族的安全文件、禁止用途政策一致	明確削弱拒答與護欄行為
回答風格	更可能拒絕、轉向或保守回答敏感請求	更可能直接繼續回答原本會被擋下的問題
風險水位	預設風險較低，但仍不代表絕對安全	預設風險更高，更容易輸出不安全或不合規內容
用於產品/團隊	更容易通過評審與落地	更難用於公開產品、企業環境或合規場景
額外防護需求	仍需要應用層防護	更依賴你自己做額外審核、過濾與限制

核心差異是「對齊方式」變了，不是「能力等級」突然提高

很多人會把 uncensored 理解成「更強」，這通常不是精準的判斷。

對這種衍生版來說，最先變的是：

拒答頻率
對敏感請求的服從程度
最終答案裡還剩多少安全過濾

而不會因為名稱裡寫了 Uncensored，就自動代表下面這些一起升級：

模型架構突然更強
上下文視窗突然更大
多模態能力突然更完整
推理上限顯著更高

更準確的理解是：它通常只是同一模型家族裡，行為調校不同的一版，而不是更高階的新模型。

為什麼官方普通版會更保守

Google 的 Gemma 官方資料一直把這個系列放在「負責任 AI 開發」的框架裡。Gemma 模型卡會明確談到誤用、有害內容、隱私與偏見等風險；Gemma Prohibited Use Policy 也明確禁止把 Gemma 或其衍生模型用於：

危險、違法或惡意活動
生成有害、誤導、欺騙性內容
覆蓋或繞過安全過濾

所以官方版不是「剛好比較保守」，而是從文件、授權與部署定位上，本來就那樣設計。

什麼情況下普通版更適合

如果你更在意下面這些，優先用官方 google/gemma-4-E4B-it：

產品部署
團隊協作
企業或對外場景
較低的政策與法律風險
更容易解釋與審查的輸出行為

對大多數正常應用來說，這通常才是預設選項。

什麼情況下有人會去試越獄版

選這類 uncensored 衍生版的人，常見目的通常是：

本地私人實驗
測試官方版是否「太早拒答」
角色扮演或更開放的創作場景
比較不同對齊版本的行為差異

但對應的代價也很明確：模型提供方少做的那部分安全約束，需要你自己補回來。

結論

所謂 Gemma 4 E4B「越獄版」和官方普通版，最本質的差異其實是：

官方版追求的是「有護欄的可用能力」
越獄版追求的是「更少拒答的可輸出性」

它不自動等於更強，更多只是更放開。

如果你的目標是穩定、可解釋、適合部署，先用官方版更合理。
如果你的目標是本地實驗，而且你清楚知道安全、合規與輸出風險都要自己承擔，那這類 uncensored 衍生版可以當成「行為差異版本」來測試，但不應該直接理解成普通版的全面升級替代品。

參考來源

Hugging Face: HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive
Hugging Face: google/gemma-4-E4B-it
Google AI for Developers: Gemma Prohibited Use Policy
Google AI for Developers: Gemma model card

llama-cli -hf 下載 Hugging Face 模型預設儲存在哪裡

Fri, 17 Apr 2026 14:48:04 +0800

如果你使用的是 llama-cli 直接從 Hugging Face 下載並執行模型，例如：

`1`	`llama-cli -hf unsloth/gemma-4-E4B-it-GGUF`

這是 llama.cpp 內建的 Hugging Face 下載能力。新版 llama.cpp 會把 -hf 下載的模型放進標準 Hugging Face Hub 快取目錄。

預設快取位置

llama-cli -hf 下載的模型快取位置優先由 LLAMA_CACHE 環境變數控制。如果沒有設定 LLAMA_CACHE，則會繼續檢查 Hugging Face 相關快取變數，例如 HF_HUB_CACHE、HUGGINGFACE_HUB_CACHE 和 HF_HOME。

如果這些變數都沒有設定，常見預設路徑如下：

系統	預設快取目錄
Linux	`~/.cache/huggingface/hub`
macOS	`~/.cache/huggingface/hub`
Windows	`%USERPROFILE%\.cache\huggingface\hub`

在 Windows 上，%USERPROFILE% 通常對應：

`1`	`C:\Users\用户名`

所以預設快取目錄大致是：

`1`	`C:\Users\用户名\.cache\huggingface\hub`

想修改 llama-cli 的快取目錄怎麼辦

可以設定 LLAMA_CACHE，把模型快取放到指定磁碟或目錄。也可以依照 Hugging Face 的習慣設定 HF_HOME，此時實際 Hub 快取目錄會是 $HF_HOME/hub。

Windows CMD 暫時設定範例：

1
2

set LLAMA_CACHE=D:\models\llama-cache
llama-cli -hf unsloth/gemma-4-E4B-it-GGUF

PowerShell 暫時設定範例：

1
2

$env:LLAMA_CACHE="D:\models\llama-cache"
llama-cli -hf unsloth/gemma-4-E4B-it-GGUF

Linux / macOS 暫時設定範例：

1
2

export LLAMA_CACHE=/data/models/llama-cache
llama-cli -hf unsloth/gemma-4-E4B-it-GGUF

小結

llama-cli -hf ... 使用的是 llama.cpp 下載邏輯，但新版預設會落到 Hugging Face Hub 快取。
Linux / macOS 預設：~/.cache/huggingface/hub
Windows 預設：%USERPROFILE%\.cache\huggingface\hub
想換目錄：設定 LLAMA_CACHE，或設定 HF_HOME / HF_HUB_CACHE

Windows 下 llama-cli 直連 Hugging Face 出現 SSL 憑證驗證失敗怎麼辦

Fri, 17 Apr 2026 14:20:29 +0800

如果你在 Windows 下執行下面這條命令：

`1`	`llama-cli -hf unsloth/gemma-4-E4B-it-GGUF`

並看到類似錯誤：

1
2

get_repo_commit: error: HTTPLIB failed: SSL server verification failed
error: failed to download model from Hugging Face

通常不是 CUDA 或 llama.cpp 本身有問題，而是程式在目前環境裡沒有正確取得系統憑證鏈，導致 HTTPS 驗證失敗。

從錯誤訊息來看，ggml-rpc.dll 和 ggml-cpu-alderlake.dll 都已經正常載入，代表執行環境本身大致可用，問題主要集中在模型下載階段。

最省事的辦法：先手動下載模型

如果你只是想盡快跑起來，本機手動下載通常最穩。

打開對應的 Hugging Face 倉庫頁面。
在 Files and versions 裡下載需要的 .gguf 檔案。
下載完成後，直接用本機檔案路徑執行：

`1`	`llama-cli -m C:\Users\knightli\Downloads\gemma-4-e4b-it.gguf`

這樣可以繞過 -hf 下載階段的 SSL 驗證問題，適合先確認模型能不能正常推理。

如果還想繼續用 `-hf` 自動下載

可以手動指定憑證檔路徑，讓程式在目前工作階段裡找到可用的 CA 憑證。

cacert.pem 可以從 curl 官方維護的 CA Extract 頁面取得：

頁面地址：https://curl.se/docs/caextract.html
直接下載：https://curl.se/ca/cacert.pem

如果用瀏覽器下載，打開上面的直接下載地址後儲存為 cacert.pem 即可。也可以在 PowerShell 裡下載到固定目錄，例如：

1
2

New-Item -ItemType Directory -Force C:\certs
Invoke-WebRequest -Uri https://curl.se/ca/cacert.pem -OutFile C:\certs\cacert.pem

下載完成後，在命令列裡設定：

1
2

set SSL_CERT_FILE=C:\certs\cacert.pem
set CURL_CA_BUNDLE=C:\certs\cacert.pem

再重新執行原本的命令：

`1`	`llama-cli -hf unsloth/gemma-4-E4B-it-GGUF`

如果問題確實來自憑證鏈，這種方式通常可以直接解決。

llama.cpp 如何從 Hugging Face 取得 GGUF 模型

Sun, 12 Apr 2026 09:31:38 +0800

llama.cpp 可以直接搭配 Hugging Face 上的 GGUF 模型使用，不一定要先手動把檔案下載到本機。

如果模型倉庫本身已經提供 GGUF 檔案，可以直接在命令列中使用 -hf 參數，例如：

`1`	`llama-cli -hf ggml-org/gemma-3-1b-it-GGUF`

預設情況下，這個參數會從 Hugging Face 下載模型。
如果你使用的是其他相容 Hugging Face API 的模型託管服務，也可以透過環境變數 MODEL_ENDPOINT 切換下載端點。

需要注意的是，llama.cpp 只能直接使用 GGUF 格式。
如果拿到的是其他格式的模型檔案，就需要先用倉庫中的 convert_*.py 腳本轉換成 GGUF。

Hugging Face 也提供了一些和 llama.cpp 相關的線上工具，常見用途包括：

把模型轉換為 GGUF
對模型做量化，縮小體積
轉換 LoRA 適配器
在線編輯 GGUF 中繼資料
直接託管 llama.cpp 推理服務

如果只想記住一個最實用的結論：優先找已經提供 GGUF 的模型倉庫，然後直接用 llama-cli -hf <user>/<model>，通常是最省事的做法。

Hugging Face 選擇 Llama 的 GGUF 模型時，量化怎麼選：從 Q8 到 Q2 的實用建議

Sat, 11 Apr 2026 20:07:29 +0800

在 Hugging Face 選擇 Llama 的 GGUF 模型時，可以先把量化等級理解成「解析度」。解析度越低，所需 VRAM/RAM 越少，但品質也會逐步下降。

先理解 32、16 與 Q 系列

32：可視為原始未壓縮版本，品質最高，但硬體需求非常高。
16：仍接近原始品質，體積約為 32 的一半，實用性更高。
Q8：從這裡開始是量化版本，常見寫法為 Q8_0 或 Q8。
Q6、Q5、Q4、Q3、Q2：數字越小，資源占用越低，品質損失也越明顯。

`K_M` / `K_S` 是什麼

K_M 與 K_S 代表混合量化策略：

大部分權重使用目前量化等級
部分關鍵區塊保留較高精度

所以同等級下，Qx_K_M 或 Qx_K_S 通常會比純 Qx 稍好。

實用選型建議

硬體足夠：優先 Q8。
記憶體或顯存吃緊：逐步下調到 Q6 / Q5 / Q4。
建議下限：盡量不要低於 Q4，可優先 Q4_K_M。
Q3 以下：可見品質下降會更明顯。

品質梯度（高到低）

32
16

– 在這一點之上，品質是一樣的，但是硬體要求太瘋狂了 –

Q8
Q6_K_M
Q6_K_S
Q6
Q5_K_M
Q5_K_S
Q5

– 這是典型的甜蜜點 –

Q4_K_M
Q4_K_S
Q4

– 在這一點之下，品質下降變得可見 –

Q3_K_M
Q3_K_S
Q3
Q2_K_M
Q2_K_S
Q2

如果只記一個結論：大多數情況先從 Q8 或 Q6_K_M 開始，不夠再降到 Q5 或 Q4_K_M，通常更穩妥。

從 Hugging Face 下載 GGUF 模型並匯入 Ollama

Thu, 09 Apr 2026 11:00:07 +0800

如果某個模型在 Ollama 官方庫裡沒有現成版本，或你想使用 Hugging Face 上的特定 GGUF 檔案，就可以先手動下載，再匯入到 Ollama。

第 1 步：從 Hugging Face 下載 GGUF 檔案

先到 Hugging Face 找到目標模型對應的 GGUF 檔案。通常你會看到多個量化版本，例如：

Q4_K_M
Q5_K_M
Q8_0

要選哪個版本，取決於你的 VRAM、RAM，以及你對速度與品質的取捨。下載後請把 .gguf 檔案放在固定目錄，後續才能在 Modelfile 中直接引用。

第 2 步：撰寫 Modelfile

在模型檔案所在目錄建立一個 Modelfile。最基本的寫法如下：

`1`	`FROM ./model.gguf`

如果檔名不同，請改成實際檔名，例如：

`1`	`FROM ./gemma-3-12b-it-q4_k_m.gguf`

如果你只是先讓模型跑起來，通常這一行 FROM 就夠了。

第 3 步：匯入到 Ollama

接著執行：

`1`	`ollama create myModelName -f Modelfile`

myModelName 是你想在 Ollama 內使用的本地模型名稱
-f Modelfile 表示用這個設定檔建立模型

建立成功後，這個 GGUF 檔案就會成為可直接呼叫的本地模型。

第 4 步：執行模型

建立完成後直接執行：

`1`	`ollama run myModelName`

之後它的使用方式就和用 ollama pull 拉下來的模型差不多。

如何查看現有模型的 Modelfile

如果你不確定 Modelfile 要怎麼寫，可以直接查看現有模型的設定：

`1`	`ollama show --modelfile llama3.2`

這個命令會輸出 llama3.2 的 Modelfile，很適合作為參考：

FROM 該怎麼寫
模板與 system prompt 如何組織
參數如何宣告

什麼時候適合用這條路線

以下情境很適合用 Hugging Face 手動匯入流程：

Ollama 官方庫裡還沒有你要的模型
你想使用特定的量化版本
你已經手動下載好 GGUF 檔案
你希望更細緻地控制模型封裝方式

如果 Ollama 官方庫已經有現成版本，直接 pull 通常更省事；但當你需要特定量化或自訂封裝時，GGUF + Modelfile 會更有彈性。

常見注意事項

FROM 後面的路徑必須和實際 .gguf 檔案位置一致。
如果檔名包含空格或特殊字元，建議先改成較簡單的名稱。
不同 GGUF 量化版本對記憶體與速度影響很大，匯入成功不代表執行一定順暢。
若模型是聊天模型，後續通常仍需依其格式調整 prompt 模板，效果才會更穩定。

結論

從 Hugging Face 下載 GGUF 檔案再匯入 Ollama 並不複雜。準備好模型檔案、寫一個最小可用的 Modelfile，再執行 ollama create，就能把第三方 GGUF 模型接入 Ollama 工作流。