ComfyUI on KnightLi的博客

Midjourney vs Stable Diffusion：AI 繪圖工具怎麼選

Mon, 18 May 2026 18:23:50 +0800

Midjourney 和 Stable Diffusion 是目前 AI 繪圖領域最常被放在一起比較的兩類工具。它們都能生成高品質圖片，但背後的產品邏輯完全不同。

Midjourney 更像一台調校好的高階相機：閉源、雲端、付費、省心，輸入幾句話就能得到很有審美完成度的結果。Stable Diffusion 更像一套可自由組裝的專業攝影棚：開源、可本地部署、可深度改造，但需要你理解模型、參數、工作流和硬體。

所以這不是簡單的「誰更強」，而是「你要什麼」。如果你追求快速出圖和審美穩定，Midjourney 更輕鬆；如果你追求精準控制、批量生產、私有化和可客製工作流，Stable Diffusion 更有空間。

一句話結論

如果你是自媒體作者、獨立設計師、插畫靈感創作者，想快速做封面、海報、概念圖、情緒板，優先選 Midjourney。

如果你要做電商商品圖、AI 模特兒換裝、建築室內渲染、遊戲美術資產、批量生成、私有部署或自動化介面，優先選 Stable Diffusion。

如果你只是想體驗 AI 繪圖，不想折騰電腦和參數，Midjourney 的學習成本低得多。

如果你願意研究 ComfyUI、LoRA、ControlNet、Checkpoint，並且手裡有不錯的 NVIDIA 顯卡，Stable Diffusion 的上限更高。

核心差異：一個是產品，一個是生態

Midjourney 首先是一個完整產品。你透過官網或 Discord 使用它，模型、算力、佇列、風格、參數、影片功能都由官方維護。它的優勢是預設效果好、審美穩定、出圖速度快，缺點是你不能真正進入底層改模型，也不能把工作流完全搬到自己的機器上。

Stable Diffusion 則更像一個開放生態。你可以用 SDXL、SD3.5、Flux 等模型，也可以透過 WebUI、ComfyUI、本地腳本或第三方平台運行。它的優勢是可控、可訓練、可批量、可私有化，缺點是安裝、顯卡、模型管理和參數調試都需要時間。

這決定了兩者的使用體驗：

Midjourney 讓你少做選擇，換來更穩定的預設審美。
Stable Diffusion 給你更多選擇，也把更多複雜度交給你。

畫面品質：Midjourney 更容易出第一眼好圖

Midjourney 的優勢是首圖驚艷度。你只寫一句「電影感人像」「未來城市海報」「高級香水廣告」，它通常會自動補足光影、構圖、材質和氛圍。對不懂攝影和繪畫的人來說，這種預設審美非常友好。

Stable Diffusion 的基礎模型也能生成高品質圖片，但預設效果不一定總是穩定。很多時候，你需要合適的模型、LoRA、採樣器、提示詞、負面提示詞和後處理，才能得到同樣驚艷的結果。

簡單說：

Midjourney 的平均下限更高。
Stable Diffusion 的最高上限很高，但需要配置和經驗。

如果你要快速做社群封面、部落格配圖、靈感板，Midjourney 通常更省時間。

控制力：Stable Diffusion 更適合嚴肅工作流

AI 繪圖最難的不是「畫得漂亮」，而是「按要求畫對」。

比如你希望人物保持同一張臉，姿勢必須符合指定骨骼，商品不能變形，衣服圖案不能亂，建築線稿要轉成真實渲染圖，或者同一個角色要出現在多張分鏡裡。這類需求更考驗控制力。

Stable Diffusion 在這裡優勢明顯。ControlNet 可以用姿勢、線稿、深度圖、邊緣圖等條件控制畫面結構；LoRA 可以訓練特定人物、產品、服裝、畫風；ComfyUI 可以把生成、放大、去背、重繪、換臉、換裝、批處理串成完整流程。

Midjourney 也有風格參考、角色參考、局部編輯、圖片參考等能力，最新版本對提示詞理解和細節保持也在增強。但它仍然更適合創意探索，而不是高約束的工業化工作流。

提示詞邏輯：一個偏審美，一個偏工程

Midjourney 更像是在理解你的審美意圖。你寫一句自然語言，它會主動補足很多「好看」的東西。對普通使用者來說，這是優點，因為你不需要把燈光、鏡頭、材質、構圖都寫清楚。

Stable Diffusion 更像是在執行一套可調參數系統。你可以用自然語言描述畫面，也可以精確指定模型、解析度、採樣步數、CFG、ControlNet 條件、LoRA 權重、局部重繪區域。它給你的不是一個按鈕，而是一套可拆解、可複用、可自動化的生成管線。

這也是為什麼很多人第一次用 Stable Diffusion 會覺得麻煩。它並不是單一 App，而是一個工具箱。

人物一致性與風格一致性

Midjourney 已經提供角色參考和風格參考能力，適合保持大致人物氣質、服裝方向和畫面風格。對短篇視覺專案、海報系列、社群媒體內容，它已經夠用。

但如果你要做長篇漫畫、遊戲角色資產、虛擬模特兒、電商品牌視覺，Stable Diffusion 的可訓練能力更重要。透過 LoRA 或 DreamBooth，你可以把特定角色、產品、服裝和畫風固定下來，讓它們在大量圖片中保持一致。

這裡的區別可以理解為：

Midjourney 更適合「像同一個人」。
Stable Diffusion 更適合「就是這個人或這個產品」。

文字生成與排版

過去 AI 繪圖工具普遍不擅長生成文字。現在情況已經改善，但仍不能把它當成專業排版工具。

Midjourney 的新版本對短英文、標題字、海報風格文字支援更好，但複雜長句、中文排版、多行商業文案仍容易出錯。

Stable Diffusion 生態裡，SD3.5 等新一代模型引入更強的文字編碼器，對長提示詞和文字理解有所改善。可是在實際商業設計中，如果要做準確文字，最穩妥的流程仍然是：先用 AI 生成畫面，再用 Photoshop、Illustrator、Figma 或 Canva 完成文字排版。

影片能力

Midjourney 已經內建圖片轉影片能力，可以從圖片生成短影片，並繼續延展。它的優勢是入口簡單，適合把靜態圖做成社群短片、氛圍片或動態封面。

Stable Diffusion 也有 AnimateDiff、SVD、ComfyUI 影片工作流等方案，但搭建和調試成本更高。它更適合願意折騰節點、顯存、模型和影格一致性的使用者。

如果你只是想把一張圖動起來，Midjourney 更省心。

如果你想把影片生成嵌入自己的自動化流程，Stable Diffusion 生態更自由。

硬體與成本

Midjourney 是雲端付費服務。你不需要顯卡，手機、平板、輕薄筆電都能用。成本主要是訂閱費用和生成額度。

Stable Diffusion 可以本地運行，軟體和很多模型本身免費，但硬體並不免費。想獲得較好的體驗，通常需要 NVIDIA 顯卡和足夠顯存。SDXL、SD3.5、Flux、影片工作流、高清放大和批量生成都會吃顯存。入門可以用 8GB 顯存嘗試，但更舒服的體驗通常需要 12GB、16GB 或更高。

成本選擇可以這樣看：

低頻使用：Midjourney 訂閱更划算。
高頻批量生產：Stable Diffusion 本地部署長期成本更低。
沒有顯卡：優先 Midjourney 或雲端 SD 平台。
已有高效能顯卡：Stable Diffusion 更值得折騰。

商業使用：看你是要創意圖還是生產線

Midjourney 很適合前期概念探索。品牌視覺方向、廣告氛圍、封面圖、遊戲場景靈感、角色設定草圖，都可以用它快速跑出大量方案。

Stable Diffusion 更適合進入生產環節。比如電商模特兒換裝、產品圖批量換背景、室內設計線稿轉渲染、角色 LoRA 訓練、企業私有素材生成、API 自動出圖。它可以被接入腳本、資料庫、後台任務和內部工具，成為一條可複用的生產線。

換句話說：

Midjourney 更像創意部門的靈感加速器。
Stable Diffusion 更像技術團隊可搭建的圖像生產系統。

2026 年怎麼選

選擇 Midjourney，如果你符合這些情況：

你希望輸入幾句話就得到高品質圖片。
你不想研究顯卡、模型、節點和參數。
你主要做封面圖、插畫、海報、概念圖、靈感圖。
你願意用訂閱費換省心體驗。
你對極端精確控制沒有強需求。

選擇 Stable Diffusion，如果你符合這些情況：

你需要控制人物姿勢、產品形態、線稿結構或畫面布局。
你要訓練自己的角色、商品、品牌風格或專用模型。
你要批量生成圖片，或者把 AI 繪圖接入網站、軟體和工作流。
你重視本地部署、隱私和可控性。
你願意花時間學習 ComfyUI、LoRA、ControlNet 等生態工具。

最現實的組合用法

很多專業使用者最後並不是二選一，而是組合使用。

一種常見流程是：先用 Midjourney 快速探索風格和構圖，找到審美方向；再用 Stable Diffusion 做精確控制、角色一致性、產品一致性和批量生產；最後用傳統設計軟體完成文字、版式和細節修圖。

這比爭論誰更強更實用。

Midjourney 負責快速看到可能性，Stable Diffusion 負責把可能性變成可控流程。前者提高創意速度，後者提高生產確定性。

小結

Midjourney 和 Stable Diffusion 的差異，本質上是「審美自動化」和「工作流可控性」的差異。

Midjourney 適合大多數希望快速得到漂亮圖片的人。它降低了 AI 繪圖的門檻，也讓非技術使用者很快進入創作狀態。

Stable Diffusion 適合需要控制、訓練、批量、私有化和自動化的人。它的學習成本更高，但一旦跑通，就能成為真正的圖像生產基礎設施。

如果你還沒有明確需求，先用 Midjourney。
如果你已經開始抱怨「這張圖哪裡都好，就是不按我的要求來」，那就該學 Stable Diffusion 了。

參考資料

筆記型電腦 RTX 4060 8GB 適合跑哪些本地 AI 模型

Fri, 08 May 2026 13:41:15 +0800

筆記型電腦 RTX 4060 8GB 可以玩本地 AI，但邊界很清楚：重點不是模型能不能啟動，而是顯存是否溢出。行動版 RTX 4060 也會受整機功耗、散熱、顯存頻寬和廠商調校影響。

在 2026 年，8GB 顯存仍是本地 AI 的入門基準線。選對量化模型和工具鏈，它可以執行 3B-8B LLM、SDXL、SD 1.5、部分 FLUX 量化工作流、Whisper 轉寫和圖像特徵提取。若強行跑 14B 以上 LLM、未量化大模型或高顯存生圖工作流，速度會在溢出到系統記憶體後明顯崩掉。

一句話：不要追最大模型，優先小模型、量化權重和低顯存工作流。

顯存預算

Windows 11、瀏覽器、驅動和背景程式會先佔一部分顯存。實際留給 AI 的顯存通常更接近 6.5GB-7.2GB。

LLM：優先 3B-8B，使用 4-bit 量化。
圖像生成：優先 SDXL、SD 1.5、FLUX GGUF/NF4 低顯存工作流。
多模態：優先 4B 左右輕量模型。
語音：Whisper large-v3 可跑，但長批次要注意發熱。
圖像索引：CLIP、ViT、SigLIP 很適合。

顯存一旦溢出到系統記憶體，體驗會很差。較小且完整放進 GPU 的模型，通常比半 offload 的大模型更好。

LLM：3B-8B 量化模型

本地聊天和文本推理可用 Ollama、LM Studio、koboldcpp、llama.cpp 或其他支援 GGUF 的前端。8GB 顯存最舒服的區間是 3B-8B 的 4-bit 量化模型。

全能輕量：Gemma 4 E4B

Gemma 4 E4B 是 Google 2026 年 Gemma 4 系列小模型之一，適合本地和端側使用。它可承擔日常問答、摘要、輕量多模態和低成本推理。

筆記型 RTX 4060 建議優先找官方或社群量化版本，不要一開始就追最高精度權重。

適合：

日常問答。
摘要和改寫。
輕量資料整理。
簡單程式碼解釋。
圖像理解輕任務。

推理與長文本：DeepSeek R1 Distill 7B/8B、Qwen 3 8B

如果重視邏輯、數學、複雜分析和中文長文本，可試 DeepSeek R1 distill 7B/8B 或 Qwen 3 8B 量化版。

Q4_K_M 通常能讓 8B 模型進入 8GB 可承受範圍。實際速度受上下文長度、後端、驅動和筆電功耗模式影響。

不建議一開始跑 14B、32B 或更大模型。即使能透過 CPU offload 啟動，體驗通常不如小模型全 GPU。

程式碼：Qwen 2.5 Coder 3B/7B

Qwen 2.5 Coder 3B 適合即時補全、解釋和小片段生成；7B 理解能力更好，但顯存和延遲更高。

即時補全：3B。
問答和解釋：3B 或 7B。
小型重構：7B 量化。
大型架構分析：不要期待 8GB 顯存容納完整專案上下文。

圖像生成

SD 1.5 和 SDXL

SD 1.5 對 8GB 很友好，速度快，生態成熟。SDXL 要求更高，但仍可用。

推薦工具：

ComfyUI
Stable Diffusion WebUI Forge
Fooocus

SD 1.5 適合快速出圖、LoRA、ControlNet；SDXL 更適合通用品質。

FLUX.1 schnell

FLUX 畫質和提示詞理解更強，但原始模型顯存壓力大。8GB 顯存建議使用 GGUF、NF4、FP8 等低顯存方案，搭配 ComfyUI-GGUF 或低顯存工作流。

使用 FLUX.1 schnell GGUF Q4/Q5。
降低解析度或 batch size。
使用 ComfyUI --lowvram。
不要同時掛太多 LoRA、ControlNet 和高清修復。
觀察工作流切換後顯存是否釋放。

可以嘗試 1024px，但不要照搬 16GB/24GB 桌機工作流。

多模態與效率工具

Whisper large-v3 可用於語音轉文字，適合會議錄音、課程音訊、影片字幕和素材整理。長批次要開性能模式並注意散熱。

照片檢索系統則很適合 4060 8GB。CLIP、ViT、SigLIP 對顯存要求不誇張，可快速處理幾千張圖片。

典型流程：

用 CLIP/ViT/SigLIP 提取 embedding。
保存到 SQLite 或向量庫。
用文字或相似圖片檢索。
用小型 LLM 生成標籤、描述或相簿摘要。

避坑

場景	建議
大模型	避免 14B+，除非接受明顯降速
量化	先選 `Q4_K_M`，再嘗試 Q5
顯存	用工作管理員或 `nvidia-smi` 監控
散熱	生圖和批次任務開性能模式
解析度	從 768px 或單張 1024px 開始
瀏覽器	關掉佔顯存的分頁
驅動	保持 NVIDIA 驅動較新
工作流	不要照搬 16GB/24GB ComfyUI 工作流

建議定位

筆記型 RTX 4060 8GB 最適合做高性價比本地 AI 入門平台。它適合 3B-8B LLM、小型程式碼模型、SDXL、SD 1.5、FLUX 量化體驗、Whisper、圖像向量索引和照片管理。

不適合長期跑 14B/32B、大型未量化模型、高解析度批量 FLUX、大規模影片生成或多模型同時常駐。

參考資料

AMD ROCm 7.2 + ComfyUI 相容性配置：Windows 上的 CUDA 平替怎麼用

Fri, 08 May 2026 10:09:05 +0800

過去很長一段時間，本地 AI 繪圖和影片工具幾乎預設圍繞 NVIDIA CUDA 展開。Stable Diffusion、ComfyUI、AnimateDiff、影片超分、LLM 推理和各種外掛，大多優先適配 CUDA。AMD 顯卡雖然顯存性價比不錯，但在 Windows 上經常要繞 DirectML、ZLUDA、Linux ROCm 或社群補丁，穩定性和教學一致性都不如 NVIDIA。

ROCm 7.2 系列讓這個局面有了明顯變化。AMD 在 CES 2026 期間發布 Ryzen AI 400 系列，並把 ROCm、Radeon、Ryzen AI 和 Windows AI 工作流放到同一條線上。官方文件顯示，ROCm 7.2.1 已經面向 Windows 更新 AMD Radeon 和 Ryzen AI 處理器上的 PyTorch 支援，ComfyUI Desktop 也從 v0.7.0 開始提供官方 AMD ROCm 支援。

這不代表 AMD 已經完全追平 CUDA 生態，但至少說明一件事：在 Windows 上用 AMD 顯卡跑 ComfyUI，正在從「折騰型方案」變成「可認真評估的方案」。

ROCm 7.2 系列帶來了什麼

ROCm 是 AMD 面向 GPU 計算和機器學習的開放軟體堆疊，定位上對應 NVIDIA CUDA。它包括 HIP、編譯器、數學庫、深度學習庫、Profiler、PyTorch 適配和一系列底層元件。

ROCm 7.2 系列對桌面使用者最值得關注的變化有三點。

第一，Windows 支援更正式。AMD 的 Radeon/Ryzen ROCm 文件寫明，Windows 上的 PyTorch 已經更新到 ROCm 7.2.1，覆蓋 AMD Radeon 圖形產品和 AMD Ryzen AI 處理器。這對 ComfyUI、Hugging Face Transformers 和本地推理工具很關鍵，因為大多數上層工具最終都要落到 PyTorch。

第二，硬體支援範圍更清楚。官方文件提到，ROCm 7.2.1 支援 Radeon 9000 系列、部分 Radeon 7000 系列，以及 Ryzen AI Max 300、部分 Ryzen AI 400 和部分 Ryzen AI 300 APU。也就是說，不能看到「AMD 顯卡」就預設全部支援，具體型號仍要查相容矩陣。

第三，ComfyUI 有了官方入口。ComfyUI 官方部落格在 2026 年 1 月宣布，Windows ComfyUI Desktop 從 v0.7.0 起支援 AMD ROCm。這對普通使用者很重要，因為它減少了手動裝環境、找 wheel、改啟動參數的成本。

對想找 CUDA 平替的人來說，這些變化比單純跑分更重要。AI 工具能不能長期使用，取決於驅動、框架、模型、外掛和前端是否能穩定連起來。

哪些硬體更適合

目前 AMD 路線要分成三類看。

第一類是 Radeon 9000 系列。這是 ROCm 7.2 系列重點覆蓋的新一代獨顯，優先級最高。如果你現在才準備買 AMD 顯卡跑本地 AI，優先看這類型號。

第二類是部分 Radeon 7000 系列。它們屬於 RDNA 3，已有一定 ROCm 支援基礎，但不是所有型號都同等穩定。買之前必須查 AMD 官方相容矩陣，尤其要確認 Windows、Linux、PyTorch 和目標工具是否同時支援。

第三類是 Ryzen AI APU。Ryzen AI 400 系列和 Ryzen AI Max 300 系列的意義在於把 CPU、GPU、NPU 和共享記憶體帶進輕薄筆電、小主機和開發設備。它們更適合輕量推理、開發測試、行動辦公和小規模 ComfyUI 工作流，不適合和高階獨顯硬拼大模型吞吐。

如果目標是流暢跑主流 AI 繪圖，獨顯仍然更穩。APU 的優勢是整合度和共享記憶體，適合嘗鮮與便攜，不適合承擔重型影片生成或大批量出圖。

Windows 下推薦路線

普通使用者在 Windows 上跑 ComfyUI，建議優先使用 ComfyUI Desktop。原因很簡單：它是官方支援路徑，能減少環境衝突，也更容易跟隨上游更新。

大致流程可以這樣理解：

確認系統是 Windows 11，並更新 AMD Software: Adrenalin Edition。
確認顯卡或 APU 在 AMD ROCm Radeon/Ryzen 相容矩陣內。
安裝 ComfyUI Desktop v0.7.0 或更新版本。
讓 ComfyUI Desktop 使用 AMD ROCm 後端。
首次啟動後檢查控制台裡的 PyTorch/ROCm 資訊。
先用基礎 SDXL 或 Flux 工作流測試，再逐步安裝外掛。

如果使用手動版 ComfyUI，思路也類似：先裝 Python，再裝對應 ROCm 7.2 系列的 PyTorch，然後啟動 main.py。AMD 官方 ComfyUI 安裝文件提醒，執行後要確認終端裡顯示的是 ROCm 7.2.1 對應的 PyTorch 版本。

低顯存設備可以加啟動參數：

`1`	`python main.py --lowvram --disable-pinned-memory`

這兩個參數不一定提升速度，但能減少部分記憶體和顯存壓力。對 8GB、12GB 或共享記憶體設備，先保證能穩定跑完，比追求單次出圖速度更重要。

Linux 仍然更適合重度使用者

ROCm 在 Windows 上變得更可用了，但 Linux 仍然是 AMD AI 工作流更成熟的環境。官方文件也顯示，Radeon 在 Linux 上支援的框架更完整，包括 PyTorch、TensorFlow、JAX、ONNX、vLLM、Llama.cpp 和部分訓練能力。

如果你的需求只是 ComfyUI 出圖，Windows 已經值得嘗試。
如果你還要跑 vLLM、訓練 LoRA、批量影片生成、多卡、Docker、自動化腳本和長期服務，Linux 仍然更合適。

可以按需求選擇：

Windows：適合桌面使用者、ComfyUI Desktop、輕量繪圖、本地嘗鮮。
Linux：適合開發者、重度 AI 使用者、伺服器、批處理和更完整 ROCm 生態。
WSL：適合想留在 Windows 但需要 Linux 工具鏈的人，不過要確認 ROCDXG、驅動和硬體是否在支援範圍內。

不要把 Windows ROCm 當成所有問題的答案。它解決的是入門門檻和桌面體驗，重度生產仍要看 Linux 支援。

ComfyUI 外掛相容要謹慎

ComfyUI 的麻煩不只在主程式，而在外掛生態。很多節點預設按 CUDA、xFormers、Triton、FlashAttention 或特定 PyTorch 擴展來寫。換到 AMD ROCm 後，常見問題包括：

外掛調用了 CUDA-only 擴展。
某些加速庫沒有 ROCm wheel。
自訂節點安裝腳本預設檢查 NVIDIA 環境。
影片節點依賴的編解碼或光流庫不支援 AMD。
新模型工作流預設使用 NVIDIA 最佳化配置。

因此，不建議一開始就把舊的 NVIDIA ComfyUI 整個目錄搬過來。更穩的做法是先裝乾淨環境，跑通基礎模型，再逐個加外掛。

推薦測試順序：

基礎文生圖。
圖生圖。
LoRA。
ControlNet。
放大和高清修復。
AnimateDiff 或影片節點。
Flux、SD3、Wan、HunyuanVideo 等更重模型。

每加一類外掛都做一次小測試。哪一步壞了，就能知道問題大機率來自哪個節點或依賴。

AMD 顯卡跑 AI 繪圖的優勢

AMD 路線最大的吸引力是顯存和價格。很多使用者選擇 AMD，不是因為它在 AI 軟體生態上已經比 CUDA 更省心，而是因為同價位顯存更大，適合本地創作和長時間試驗。

大顯存對 ComfyUI 很實際：

可以跑更大的 checkpoint。
可以提高解析度。
可以載入更多 LoRA、ControlNet 和參考圖節點。
可以減少低顯存模式帶來的速度損失。
影片生成和批量出圖更不容易爆顯存。

如果 ROCm 7.2 系列能讓 Windows 上的 PyTorch 和 ComfyUI 穩定跑起來，AMD 顯卡就會成為更現實的 CUDA 平替，尤其適合不想上雲、又想保留較大本地顯存的人。

仍然要接受的限制

AMD 路線現在能用，但還不是「無腦替代 CUDA」。

主要限制包括：

支援型號有限，老卡和部分中低階卡不一定在官方列表內。
Windows 上框架支援仍少於 Linux。
很多 AI 教學仍預設 NVIDIA。
部分 ComfyUI 外掛只測過 CUDA。
遇到報錯時，社群答案比 NVIDIA 少。
同一模型在不同後端的效能差異可能很大。

所以選 AMD 路線前，最好先確認三個問題：

你的顯卡是否在官方相容矩陣裡。
你的主要工具是否明確支援 ROCm。
你的核心外掛是否依賴 CUDA-only 擴展。

如果這三個問題都能接受，AMD 才是可靠選擇。否則，省下來的硬體成本可能會被環境排錯時間抵消。

小結

ROCm 7.2 系列讓 AMD 在 Windows 本地 AI 上前進了一大步。Radeon 和 Ryzen AI 的 PyTorch 支援更明確，ComfyUI Desktop 也開始提供官方 ROCm 支援，這讓 AMD 顯卡第一次真正接近普通使用者可接受的 CUDA 平替體驗。

但「可用」不等於「全相容」。目前最穩的策略是：先查相容矩陣，再走官方安裝路徑，先跑基礎 ComfyUI，再逐步添加外掛和複雜影片工作流。Windows 適合輕量和桌面創作，Linux 仍適合重度開發和生產。

如果你追求最省心，CUDA 仍然是主流答案。
如果你願意為更大顯存和開放生態多做一點驗證，ROCm 7.2 + ComfyUI 已經值得認真嘗試。

參考資料

Pixelle-Video：一句主題生成短影片的開源 AI 引擎

Thu, 07 May 2026 20:25:17 +0800

Pixelle-Video 是 AIDC-AI 開源的全自動短影片生成引擎。它的目標很直白：使用者輸入一個主題，系統自動完成影片文案、AI 配圖或影片、語音解說、背景音樂和最終合成。

這類工具適合短影片批量創作、知識科普、口播內容、小說解說、歷史文化類影片和自媒體素材實驗。它不是單一的「文生影片模型」，而是把多種 AI 能力接成一條生產流水線。

它能自動做什麼

Pixelle-Video 的預設流程可以概括為：

輸入主題或固定文案；
由大型語言模型生成解說詞；
根據分鏡規劃生成配圖或影片素材；
使用 TTS 生成語音解說；
添加背景音樂；
套用影片模板並合成最終成片。

README 中給出的流程是「文案生成 → 配圖規劃 → 逐幀處理 → 影片合成」。這種模組化設計的好處是清晰：每一步都可以替換模型、調整參數或改用自訂工作流。

功能亮點

專案支援的能力相當完整：

AI 智慧文案：根據主題自動生成影片解說詞；
AI 配圖：為每句話或每個分鏡生成插圖；
AI 影片生成：支援接入 WAN 2.1 等影片生成模型；
TTS 語音：支援 Edge-TTS、Index-TTS 等方案；
背景音樂：可以使用內建 BGM，也可以放入自訂音樂；
多尺寸輸出：支援直式、橫式等不同影片比例；
多模型選擇：可接入 GPT、通義千問、DeepSeek、Ollama 等；
ComfyUI 工作流：可以使用預置工作流，也可以替換生圖、TTS、影片生成等環節。

最近更新裡還提到動作遷移、數位人口播、圖生影片、多語言 TTS 音色、RunningHub 支援、Windows 一鍵整合包等內容。這說明專案已經不只是一個腳本，而是在往完整創作工具方向發展。

安裝和啟動方式

Windows 使用者可以優先看官方提供的一鍵整合包。它的定位是降低安裝門檻，不需要手動準備 Python、uv 或 ffmpeg，解壓後執行 start.bat，再在瀏覽器裡打開 Web 介面配置 API 和圖像生成服務。

如果從源碼啟動，README 給出的基本方式是：

1
2
3

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

源碼方式適合 macOS、Linux 使用者，也適合需要修改模板、工作流或服務配置的人。前置依賴主要是 uv 和 ffmpeg。

配置重點

第一次使用時，關鍵不是先點「生成」，而是把幾個外部能力接好。

LLM 配置決定文案品質。你可以選擇通義千問、GPT、DeepSeek、Ollama 等模型，並填寫對應的 API Key、Base URL 和模型名。如果想盡量降低成本，本地 Ollama 是一個方向；如果追求穩定效果，雲端模型會更省心。

圖像和影片生成配置決定畫面品質。專案支援本地 ComfyUI，也支援 RunningHub。懂 ComfyUI 的使用者可以把自己的工作流放進 workflows/ 目錄，用來替換預設生圖、影片或 TTS 流程。

模板配置決定最終成片的視覺形態。專案用 templates/ 目錄組織影片模板，靜態模板、圖片模板和影片模板按命名規則區分。對內容創作者來說，這比只生成一段素材更實用，因為最終交付物是可以直接預覽和下載的影片。

適合什麼人

Pixelle-Video 比較適合三類使用者：

短影片創作者：想快速把選題變成可發布的草稿影片；
AIGC 工具玩家：想把 LLM、ComfyUI、TTS 和影片合成串起來；
開發者和自動化使用者：想基於開源專案改模板、改工作流，甚至接入自己的素材和模型。

如果你只想偶爾做一支高品質精品影片，它未必能直接替代人工剪輯；但如果你想批量生成結構一致的解釋類、口播類、科普類內容，它的流水線思路很有價值。

需要注意的地方

這類工具的上限由多個環節共同決定。文案模型不好，內容會空；配圖模型不好，畫面會散；TTS 不自然，影片會顯得粗糙；模板不合適，最終成片也會缺少辨識度。

所以使用 Pixelle-Video 時，建議先從一個固定場景開始調試，比如「60 秒知識科普直式影片」。把 LLM、畫面風格、TTS 音色、BGM 和模板固定下來，再逐步擴大到其他主題。

另外，專案雖然支援本地免費方案，但本地方案通常需要顯卡、ComfyUI 配置和模型檔案。沒有本地推理環境的使用者，可以用雲端 LLM 加 RunningHub 的方式降低部署難度，但要留意呼叫成本。

簡短判斷

Pixelle-Video 的看點不只是「輸入一句話生成影片」，而是它把短影片生產拆成可替換的模組：文案、畫面、語音、音樂、模板和合成。對普通使用者，它是一個低門檻 AI 影片工具；對開發者，它更像一個可改造的短影片自動化框架。

如果你正在研究 AI 短影片流水線，或者想把 ComfyUI、TTS、LLM 和模板合成串成一個可用產品，Pixelle-Video 值得試用和拆解。

ComfyUI on KnightLi的博客

Midjourney vs Stable Diffusion：AI 繪圖工具怎麼選

一句話結論

核心差異：一個是產品，一個是生態

畫面品質：Midjourney 更容易出第一眼好圖

控制力：Stable Diffusion 更適合嚴肅工作流

提示詞邏輯：一個偏審美，一個偏工程

人物一致性與風格一致性

文字生成與排版

影片能力

硬體與成本

商業使用：看你是要創意圖還是生產線

2026 年怎麼選

最現實的組合用法

小結

參考資料

筆記型電腦 RTX 4060 8GB 適合跑哪些本地 AI 模型

顯存預算

LLM：3B-8B 量化模型

全能輕量：Gemma 4 E4B

推理與長文本：DeepSeek R1 Distill 7B/8B、Qwen 3 8B

程式碼：Qwen 2.5 Coder 3B/7B

圖像生成

SD 1.5 和 SDXL

FLUX.1 schnell

多模態與效率工具

推薦組合

避坑

建議定位

參考資料

AMD ROCm 7.2 + ComfyUI 相容性配置：Windows 上的 CUDA 平替怎麼用

ROCm 7.2 系列帶來了什麼

哪些硬體更適合

Windows 下推薦路線

Linux 仍然更適合重度使用者

ComfyUI 外掛相容要謹慎

AMD 顯卡跑 AI 繪圖的優勢

仍然要接受的限制

推薦配置思路

小結

參考資料

Pixelle-Video：一句主題生成短影片的開源 AI 引擎

它能自動做什麼

功能亮點

安裝和啟動方式

配置重點

適合什麼人

需要注意的地方

簡短判斷