Pixelle-Video：一句主題生成短影片的開源 AI 引擎

Pixelle-Video 是 AIDC-AI 開源的全自動短影片生成引擎。它的目標很直白：使用者輸入一個主題，系統自動完成影片文案、AI 配圖或影片、語音解說、背景音樂和最終合成。

這類工具適合短影片批量創作、知識科普、口播內容、小說解說、歷史文化類影片和自媒體素材實驗。它不是單一的「文生影片模型」，而是把多種 AI 能力接成一條生產流水線。

它能自動做什麼

Pixelle-Video 的預設流程可以概括為：

README 中給出的流程是「文案生成 → 配圖規劃 → 逐幀處理 → 影片合成」。這種模組化設計的好處是清晰：每一步都可以替換模型、調整參數或改用自訂工作流。

專案支援的能力相當完整：

最近更新裡還提到動作遷移、數位人口播、圖生影片、多語言 TTS 音色、RunningHub 支援、Windows 一鍵整合包等內容。這說明專案已經不只是一個腳本，而是在往完整創作工具方向發展。

Windows 使用者可以優先看官方提供的一鍵整合包。它的定位是降低安裝門檻，不需要手動準備 Python、uv 或 ffmpeg，解壓後執行 start.bat，再在瀏覽器裡打開 Web 介面配置 API 和圖像生成服務。

如果從源碼啟動，README 給出的基本方式是：

1
2
3


git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

源碼方式適合 macOS、Linux 使用者，也適合需要修改模板、工作流或服務配置的人。前置依賴主要是 uv 和 ffmpeg。

第一次使用時，關鍵不是先點「生成」，而是把幾個外部能力接好。

LLM 配置決定文案品質。你可以選擇通義千問、GPT、DeepSeek、Ollama 等模型，並填寫對應的 API Key、Base URL 和模型名。如果想盡量降低成本，本地 Ollama 是一個方向；如果追求穩定效果，雲端模型會更省心。

圖像和影片生成配置決定畫面品質。專案支援本地 ComfyUI，也支援 RunningHub。懂 ComfyUI 的使用者可以把自己的工作流放進 workflows/ 目錄，用來替換預設生圖、影片或 TTS 流程。

模板配置決定最終成片的視覺形態。專案用 templates/ 目錄組織影片模板，靜態模板、圖片模板和影片模板按命名規則區分。對內容創作者來說，這比只生成一段素材更實用，因為最終交付物是可以直接預覽和下載的影片。

Pixelle-Video 比較適合三類使用者：

如果你只想偶爾做一支高品質精品影片，它未必能直接替代人工剪輯；但如果你想批量生成結構一致的解釋類、口播類、科普類內容，它的流水線思路很有價值。

這類工具的上限由多個環節共同決定。文案模型不好，內容會空；配圖模型不好，畫面會散；TTS 不自然，影片會顯得粗糙；模板不合適，最終成片也會缺少辨識度。

所以使用 Pixelle-Video 時，建議先從一個固定場景開始調試，比如「60 秒知識科普直式影片」。把 LLM、畫面風格、TTS 音色、BGM 和模板固定下來，再逐步擴大到其他主題。

另外，專案雖然支援本地免費方案，但本地方案通常需要顯卡、ComfyUI 配置和模型檔案。沒有本地推理環境的使用者，可以用雲端 LLM 加 RunningHub 的方式降低部署難度，但要留意呼叫成本。

Pixelle-Video 的看點不只是「輸入一句話生成影片」，而是它把短影片生產拆成可替換的模組：文案、畫面、語音、音樂、模板和合成。對普通使用者，它是一個低門檻 AI 影片工具；對開發者，它更像一個可改造的短影片自動化框架。

如果你正在研究 AI 短影片流水線，或者想把 ComfyUI、TTS、LLM 和模板合成串成一個可用產品，Pixelle-Video 值得試用和拆解。