Pixelle-Video 是 AIDC-AI 開源的全自動短影片生成引擎。它的目標很直白:使用者輸入一個主題,系統自動完成影片文案、AI 配圖或影片、語音解說、背景音樂和最終合成。
這類工具適合短影片批量創作、知識科普、口播內容、小說解說、歷史文化類影片和自媒體素材實驗。它不是單一的「文生影片模型」,而是把多種 AI 能力接成一條生產流水線。
它能自動做什麼
Pixelle-Video 的預設流程可以概括為:
- 輸入主題或固定文案;
- 由大型語言模型生成解說詞;
- 根據分鏡規劃生成配圖或影片素材;
- 使用 TTS 生成語音解說;
- 添加背景音樂;
- 套用影片模板並合成最終成片。
README 中給出的流程是「文案生成 → 配圖規劃 → 逐幀處理 → 影片合成」。這種模組化設計的好處是清晰:每一步都可以替換模型、調整參數或改用自訂工作流。
功能亮點
專案支援的能力相當完整:
- AI 智慧文案:根據主題自動生成影片解說詞;
- AI 配圖:為每句話或每個分鏡生成插圖;
- AI 影片生成:支援接入 WAN 2.1 等影片生成模型;
- TTS 語音:支援 Edge-TTS、Index-TTS 等方案;
- 背景音樂:可以使用內建 BGM,也可以放入自訂音樂;
- 多尺寸輸出:支援直式、橫式等不同影片比例;
- 多模型選擇:可接入 GPT、通義千問、DeepSeek、Ollama 等;
- ComfyUI 工作流:可以使用預置工作流,也可以替換生圖、TTS、影片生成等環節。
最近更新裡還提到動作遷移、數位人口播、圖生影片、多語言 TTS 音色、RunningHub 支援、Windows 一鍵整合包等內容。這說明專案已經不只是一個腳本,而是在往完整創作工具方向發展。
安裝和啟動方式
Windows 使用者可以優先看官方提供的一鍵整合包。它的定位是降低安裝門檻,不需要手動準備 Python、uv 或 ffmpeg,解壓後執行 start.bat,再在瀏覽器裡打開 Web 介面配置 API 和圖像生成服務。
如果從源碼啟動,README 給出的基本方式是:
|
|
源碼方式適合 macOS、Linux 使用者,也適合需要修改模板、工作流或服務配置的人。前置依賴主要是 uv 和 ffmpeg。
配置重點
第一次使用時,關鍵不是先點「生成」,而是把幾個外部能力接好。
LLM 配置決定文案品質。你可以選擇通義千問、GPT、DeepSeek、Ollama 等模型,並填寫對應的 API Key、Base URL 和模型名。如果想盡量降低成本,本地 Ollama 是一個方向;如果追求穩定效果,雲端模型會更省心。
圖像和影片生成配置決定畫面品質。專案支援本地 ComfyUI,也支援 RunningHub。懂 ComfyUI 的使用者可以把自己的工作流放進 workflows/ 目錄,用來替換預設生圖、影片或 TTS 流程。
模板配置決定最終成片的視覺形態。專案用 templates/ 目錄組織影片模板,靜態模板、圖片模板和影片模板按命名規則區分。對內容創作者來說,這比只生成一段素材更實用,因為最終交付物是可以直接預覽和下載的影片。
適合什麼人
Pixelle-Video 比較適合三類使用者:
- 短影片創作者:想快速把選題變成可發布的草稿影片;
- AIGC 工具玩家:想把 LLM、ComfyUI、TTS 和影片合成串起來;
- 開發者和自動化使用者:想基於開源專案改模板、改工作流,甚至接入自己的素材和模型。
如果你只想偶爾做一支高品質精品影片,它未必能直接替代人工剪輯;但如果你想批量生成結構一致的解釋類、口播類、科普類內容,它的流水線思路很有價值。
需要注意的地方
這類工具的上限由多個環節共同決定。文案模型不好,內容會空;配圖模型不好,畫面會散;TTS 不自然,影片會顯得粗糙;模板不合適,最終成片也會缺少辨識度。
所以使用 Pixelle-Video 時,建議先從一個固定場景開始調試,比如「60 秒知識科普直式影片」。把 LLM、畫面風格、TTS 音色、BGM 和模板固定下來,再逐步擴大到其他主題。
另外,專案雖然支援本地免費方案,但本地方案通常需要顯卡、ComfyUI 配置和模型檔案。沒有本地推理環境的使用者,可以用雲端 LLM 加 RunningHub 的方式降低部署難度,但要留意呼叫成本。
簡短判斷
Pixelle-Video 的看點不只是「輸入一句話生成影片」,而是它把短影片生產拆成可替換的模組:文案、畫面、語音、音樂、模板和合成。對普通使用者,它是一個低門檻 AI 影片工具;對開發者,它更像一個可改造的短影片自動化框架。
如果你正在研究 AI 短影片流水線,或者想把 ComfyUI、TTS、LLM 和模板合成串成一個可用產品,Pixelle-Video 值得試用和拆解。