<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>ComfyUI on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/comfyui/</link>
        <description>Recent content in ComfyUI on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Mon, 18 May 2026 18:23:50 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/comfyui/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Midjourney vs Stable Diffusion：AI 繪圖工具怎麼選</title>
        <link>https://knightli.com/zh-tw/2026/05/18/midjourney-vs-stable-diffusion-ai-image-generator/</link>
        <pubDate>Mon, 18 May 2026 18:23:50 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/18/midjourney-vs-stable-diffusion-ai-image-generator/</guid>
        <description>&lt;p&gt;Midjourney 和 Stable Diffusion 是目前 AI 繪圖領域最常被放在一起比較的兩類工具。它們都能生成高品質圖片，但背後的產品邏輯完全不同。&lt;/p&gt;
&lt;p&gt;Midjourney 更像一台調校好的高階相機：閉源、雲端、付費、省心，輸入幾句話就能得到很有審美完成度的結果。Stable Diffusion 更像一套可自由組裝的專業攝影棚：開源、可本地部署、可深度改造，但需要你理解模型、參數、工作流和硬體。&lt;/p&gt;
&lt;p&gt;所以這不是簡單的「誰更強」，而是「你要什麼」。如果你追求快速出圖和審美穩定，Midjourney 更輕鬆；如果你追求精準控制、批量生產、私有化和可客製工作流，Stable Diffusion 更有空間。&lt;/p&gt;
&lt;h2 id=&#34;一句話結論&#34;&gt;一句話結論
&lt;/h2&gt;&lt;p&gt;如果你是自媒體作者、獨立設計師、插畫靈感創作者，想快速做封面、海報、概念圖、情緒板，優先選 Midjourney。&lt;/p&gt;
&lt;p&gt;如果你要做電商商品圖、AI 模特兒換裝、建築室內渲染、遊戲美術資產、批量生成、私有部署或自動化介面，優先選 Stable Diffusion。&lt;/p&gt;
&lt;p&gt;如果你只是想體驗 AI 繪圖，不想折騰電腦和參數，Midjourney 的學習成本低得多。&lt;/p&gt;
&lt;p&gt;如果你願意研究 ComfyUI、LoRA、ControlNet、Checkpoint，並且手裡有不錯的 NVIDIA 顯卡，Stable Diffusion 的上限更高。&lt;/p&gt;
&lt;h2 id=&#34;核心差異一個是產品一個是生態&#34;&gt;核心差異：一個是產品，一個是生態
&lt;/h2&gt;&lt;p&gt;Midjourney 首先是一個完整產品。你透過官網或 Discord 使用它，模型、算力、佇列、風格、參數、影片功能都由官方維護。它的優勢是預設效果好、審美穩定、出圖速度快，缺點是你不能真正進入底層改模型，也不能把工作流完全搬到自己的機器上。&lt;/p&gt;
&lt;p&gt;Stable Diffusion 則更像一個開放生態。你可以用 SDXL、SD3.5、Flux 等模型，也可以透過 WebUI、ComfyUI、本地腳本或第三方平台運行。它的優勢是可控、可訓練、可批量、可私有化，缺點是安裝、顯卡、模型管理和參數調試都需要時間。&lt;/p&gt;
&lt;p&gt;這決定了兩者的使用體驗：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Midjourney 讓你少做選擇，換來更穩定的預設審美。&lt;/li&gt;
&lt;li&gt;Stable Diffusion 給你更多選擇，也把更多複雜度交給你。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;畫面品質midjourney-更容易出第一眼好圖&#34;&gt;畫面品質：Midjourney 更容易出第一眼好圖
&lt;/h2&gt;&lt;p&gt;Midjourney 的優勢是首圖驚艷度。你只寫一句「電影感人像」「未來城市海報」「高級香水廣告」，它通常會自動補足光影、構圖、材質和氛圍。對不懂攝影和繪畫的人來說，這種預設審美非常友好。&lt;/p&gt;
&lt;p&gt;Stable Diffusion 的基礎模型也能生成高品質圖片，但預設效果不一定總是穩定。很多時候，你需要合適的模型、LoRA、採樣器、提示詞、負面提示詞和後處理，才能得到同樣驚艷的結果。&lt;/p&gt;
&lt;p&gt;簡單說：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Midjourney 的平均下限更高。&lt;/li&gt;
&lt;li&gt;Stable Diffusion 的最高上限很高，但需要配置和經驗。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你要快速做社群封面、部落格配圖、靈感板，Midjourney 通常更省時間。&lt;/p&gt;
&lt;h2 id=&#34;控制力stable-diffusion-更適合嚴肅工作流&#34;&gt;控制力：Stable Diffusion 更適合嚴肅工作流
&lt;/h2&gt;&lt;p&gt;AI 繪圖最難的不是「畫得漂亮」，而是「按要求畫對」。&lt;/p&gt;
&lt;p&gt;比如你希望人物保持同一張臉，姿勢必須符合指定骨骼，商品不能變形，衣服圖案不能亂，建築線稿要轉成真實渲染圖，或者同一個角色要出現在多張分鏡裡。這類需求更考驗控制力。&lt;/p&gt;
&lt;p&gt;Stable Diffusion 在這裡優勢明顯。ControlNet 可以用姿勢、線稿、深度圖、邊緣圖等條件控制畫面結構；LoRA 可以訓練特定人物、產品、服裝、畫風；ComfyUI 可以把生成、放大、去背、重繪、換臉、換裝、批處理串成完整流程。&lt;/p&gt;
&lt;p&gt;Midjourney 也有風格參考、角色參考、局部編輯、圖片參考等能力，最新版本對提示詞理解和細節保持也在增強。但它仍然更適合創意探索，而不是高約束的工業化工作流。&lt;/p&gt;
&lt;h2 id=&#34;提示詞邏輯一個偏審美一個偏工程&#34;&gt;提示詞邏輯：一個偏審美，一個偏工程
&lt;/h2&gt;&lt;p&gt;Midjourney 更像是在理解你的審美意圖。你寫一句自然語言，它會主動補足很多「好看」的東西。對普通使用者來說，這是優點，因為你不需要把燈光、鏡頭、材質、構圖都寫清楚。&lt;/p&gt;
&lt;p&gt;Stable Diffusion 更像是在執行一套可調參數系統。你可以用自然語言描述畫面，也可以精確指定模型、解析度、採樣步數、CFG、ControlNet 條件、LoRA 權重、局部重繪區域。它給你的不是一個按鈕，而是一套可拆解、可複用、可自動化的生成管線。&lt;/p&gt;
&lt;p&gt;這也是為什麼很多人第一次用 Stable Diffusion 會覺得麻煩。它並不是單一 App，而是一個工具箱。&lt;/p&gt;
&lt;h2 id=&#34;人物一致性與風格一致性&#34;&gt;人物一致性與風格一致性
&lt;/h2&gt;&lt;p&gt;Midjourney 已經提供角色參考和風格參考能力，適合保持大致人物氣質、服裝方向和畫面風格。對短篇視覺專案、海報系列、社群媒體內容，它已經夠用。&lt;/p&gt;
&lt;p&gt;但如果你要做長篇漫畫、遊戲角色資產、虛擬模特兒、電商品牌視覺，Stable Diffusion 的可訓練能力更重要。透過 LoRA 或 DreamBooth，你可以把特定角色、產品、服裝和畫風固定下來，讓它們在大量圖片中保持一致。&lt;/p&gt;
&lt;p&gt;這裡的區別可以理解為：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Midjourney 更適合「像同一個人」。&lt;/li&gt;
&lt;li&gt;Stable Diffusion 更適合「就是這個人或這個產品」。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;文字生成與排版&#34;&gt;文字生成與排版
&lt;/h2&gt;&lt;p&gt;過去 AI 繪圖工具普遍不擅長生成文字。現在情況已經改善，但仍不能把它當成專業排版工具。&lt;/p&gt;
&lt;p&gt;Midjourney 的新版本對短英文、標題字、海報風格文字支援更好，但複雜長句、中文排版、多行商業文案仍容易出錯。&lt;/p&gt;
&lt;p&gt;Stable Diffusion 生態裡，SD3.5 等新一代模型引入更強的文字編碼器，對長提示詞和文字理解有所改善。可是在實際商業設計中，如果要做準確文字，最穩妥的流程仍然是：先用 AI 生成畫面，再用 Photoshop、Illustrator、Figma 或 Canva 完成文字排版。&lt;/p&gt;
&lt;h2 id=&#34;影片能力&#34;&gt;影片能力
&lt;/h2&gt;&lt;p&gt;Midjourney 已經內建圖片轉影片能力，可以從圖片生成短影片，並繼續延展。它的優勢是入口簡單，適合把靜態圖做成社群短片、氛圍片或動態封面。&lt;/p&gt;
&lt;p&gt;Stable Diffusion 也有 AnimateDiff、SVD、ComfyUI 影片工作流等方案，但搭建和調試成本更高。它更適合願意折騰節點、顯存、模型和影格一致性的使用者。&lt;/p&gt;
&lt;p&gt;如果你只是想把一張圖動起來，Midjourney 更省心。&lt;/p&gt;
&lt;p&gt;如果你想把影片生成嵌入自己的自動化流程，Stable Diffusion 生態更自由。&lt;/p&gt;
&lt;h2 id=&#34;硬體與成本&#34;&gt;硬體與成本
&lt;/h2&gt;&lt;p&gt;Midjourney 是雲端付費服務。你不需要顯卡，手機、平板、輕薄筆電都能用。成本主要是訂閱費用和生成額度。&lt;/p&gt;
&lt;p&gt;Stable Diffusion 可以本地運行，軟體和很多模型本身免費，但硬體並不免費。想獲得較好的體驗，通常需要 NVIDIA 顯卡和足夠顯存。SDXL、SD3.5、Flux、影片工作流、高清放大和批量生成都會吃顯存。入門可以用 8GB 顯存嘗試，但更舒服的體驗通常需要 12GB、16GB 或更高。&lt;/p&gt;
&lt;p&gt;成本選擇可以這樣看：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;低頻使用：Midjourney 訂閱更划算。&lt;/li&gt;
&lt;li&gt;高頻批量生產：Stable Diffusion 本地部署長期成本更低。&lt;/li&gt;
&lt;li&gt;沒有顯卡：優先 Midjourney 或雲端 SD 平台。&lt;/li&gt;
&lt;li&gt;已有高效能顯卡：Stable Diffusion 更值得折騰。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;商業使用看你是要創意圖還是生產線&#34;&gt;商業使用：看你是要創意圖還是生產線
&lt;/h2&gt;&lt;p&gt;Midjourney 很適合前期概念探索。品牌視覺方向、廣告氛圍、封面圖、遊戲場景靈感、角色設定草圖，都可以用它快速跑出大量方案。&lt;/p&gt;
&lt;p&gt;Stable Diffusion 更適合進入生產環節。比如電商模特兒換裝、產品圖批量換背景、室內設計線稿轉渲染、角色 LoRA 訓練、企業私有素材生成、API 自動出圖。它可以被接入腳本、資料庫、後台任務和內部工具，成為一條可複用的生產線。&lt;/p&gt;
&lt;p&gt;換句話說：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Midjourney 更像創意部門的靈感加速器。&lt;/li&gt;
&lt;li&gt;Stable Diffusion 更像技術團隊可搭建的圖像生產系統。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;2026-年怎麼選&#34;&gt;2026 年怎麼選
&lt;/h2&gt;&lt;p&gt;選擇 Midjourney，如果你符合這些情況：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你希望輸入幾句話就得到高品質圖片。&lt;/li&gt;
&lt;li&gt;你不想研究顯卡、模型、節點和參數。&lt;/li&gt;
&lt;li&gt;你主要做封面圖、插畫、海報、概念圖、靈感圖。&lt;/li&gt;
&lt;li&gt;你願意用訂閱費換省心體驗。&lt;/li&gt;
&lt;li&gt;你對極端精確控制沒有強需求。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;選擇 Stable Diffusion，如果你符合這些情況：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你需要控制人物姿勢、產品形態、線稿結構或畫面布局。&lt;/li&gt;
&lt;li&gt;你要訓練自己的角色、商品、品牌風格或專用模型。&lt;/li&gt;
&lt;li&gt;你要批量生成圖片，或者把 AI 繪圖接入網站、軟體和工作流。&lt;/li&gt;
&lt;li&gt;你重視本地部署、隱私和可控性。&lt;/li&gt;
&lt;li&gt;你願意花時間學習 ComfyUI、LoRA、ControlNet 等生態工具。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;最現實的組合用法&#34;&gt;最現實的組合用法
&lt;/h2&gt;&lt;p&gt;很多專業使用者最後並不是二選一，而是組合使用。&lt;/p&gt;
&lt;p&gt;一種常見流程是：先用 Midjourney 快速探索風格和構圖，找到審美方向；再用 Stable Diffusion 做精確控制、角色一致性、產品一致性和批量生產；最後用傳統設計軟體完成文字、版式和細節修圖。&lt;/p&gt;
&lt;p&gt;這比爭論誰更強更實用。&lt;/p&gt;
&lt;p&gt;Midjourney 負責快速看到可能性，Stable Diffusion 負責把可能性變成可控流程。前者提高創意速度，後者提高生產確定性。&lt;/p&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;p&gt;Midjourney 和 Stable Diffusion 的差異，本質上是「審美自動化」和「工作流可控性」的差異。&lt;/p&gt;
&lt;p&gt;Midjourney 適合大多數希望快速得到漂亮圖片的人。它降低了 AI 繪圖的門檻，也讓非技術使用者很快進入創作狀態。&lt;/p&gt;
&lt;p&gt;Stable Diffusion 適合需要控制、訓練、批量、私有化和自動化的人。它的學習成本更高，但一旦跑通，就能成為真正的圖像生產基礎設施。&lt;/p&gt;
&lt;p&gt;如果你還沒有明確需求，先用 Midjourney。&lt;br&gt;
如果你已經開始抱怨「這張圖哪裡都好，就是不按我的要求來」，那就該學 Stable Diffusion 了。&lt;/p&gt;
&lt;h2 id=&#34;參考資料&#34;&gt;參考資料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://docs.midjourney.com/hc/en-us/articles/32199405667853-Version&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Midjourney Version 官方文件&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://docs.midjourney.com/hc/en-us/articles/37460773864589-Video&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Midjourney Video 官方文件&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/Stability-AI/sd3.5&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Stability AI Stable Diffusion 3.5 GitHub&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>筆記型電腦 RTX 4060 8GB 適合跑哪些本地 AI 模型</title>
        <link>https://knightli.com/zh-tw/2026/05/08/laptop-rtx-4060-8gb-local-ai-models/</link>
        <pubDate>Fri, 08 May 2026 13:41:15 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/08/laptop-rtx-4060-8gb-local-ai-models/</guid>
        <description>&lt;p&gt;筆記型電腦 RTX 4060 8GB 可以玩本地 AI，但邊界很清楚：重點不是模型能不能啟動，而是顯存是否溢出。行動版 RTX 4060 也會受整機功耗、散熱、顯存頻寬和廠商調校影響。&lt;/p&gt;
&lt;p&gt;在 2026 年，8GB 顯存仍是本地 AI 的入門基準線。選對量化模型和工具鏈，它可以執行 3B-8B LLM、SDXL、SD 1.5、部分 FLUX 量化工作流、Whisper 轉寫和圖像特徵提取。若強行跑 14B 以上 LLM、未量化大模型或高顯存生圖工作流，速度會在溢出到系統記憶體後明顯崩掉。&lt;/p&gt;
&lt;p&gt;一句話：不要追最大模型，優先小模型、量化權重和低顯存工作流。&lt;/p&gt;
&lt;h2 id=&#34;顯存預算&#34;&gt;顯存預算
&lt;/h2&gt;&lt;p&gt;Windows 11、瀏覽器、驅動和背景程式會先佔一部分顯存。實際留給 AI 的顯存通常更接近 6.5GB-7.2GB。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;LLM：優先 3B-8B，使用 4-bit 量化。&lt;/li&gt;
&lt;li&gt;圖像生成：優先 SDXL、SD 1.5、FLUX GGUF/NF4 低顯存工作流。&lt;/li&gt;
&lt;li&gt;多模態：優先 4B 左右輕量模型。&lt;/li&gt;
&lt;li&gt;語音：Whisper large-v3 可跑，但長批次要注意發熱。&lt;/li&gt;
&lt;li&gt;圖像索引：CLIP、ViT、SigLIP 很適合。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;顯存一旦溢出到系統記憶體，體驗會很差。較小且完整放進 GPU 的模型，通常比半 offload 的大模型更好。&lt;/p&gt;
&lt;h2 id=&#34;llm3b-8b-量化模型&#34;&gt;LLM：3B-8B 量化模型
&lt;/h2&gt;&lt;p&gt;本地聊天和文本推理可用 Ollama、LM Studio、koboldcpp、llama.cpp 或其他支援 GGUF 的前端。8GB 顯存最舒服的區間是 3B-8B 的 4-bit 量化模型。&lt;/p&gt;
&lt;h3 id=&#34;全能輕量gemma-4-e4b&#34;&gt;全能輕量：Gemma 4 E4B
&lt;/h3&gt;&lt;p&gt;Gemma 4 E4B 是 Google 2026 年 Gemma 4 系列小模型之一，適合本地和端側使用。它可承擔日常問答、摘要、輕量多模態和低成本推理。&lt;/p&gt;
&lt;p&gt;筆記型 RTX 4060 建議優先找官方或社群量化版本，不要一開始就追最高精度權重。&lt;/p&gt;
&lt;p&gt;適合：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;日常問答。&lt;/li&gt;
&lt;li&gt;摘要和改寫。&lt;/li&gt;
&lt;li&gt;輕量資料整理。&lt;/li&gt;
&lt;li&gt;簡單程式碼解釋。&lt;/li&gt;
&lt;li&gt;圖像理解輕任務。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;推理與長文本deepseek-r1-distill-7b8bqwen-3-8b&#34;&gt;推理與長文本：DeepSeek R1 Distill 7B/8B、Qwen 3 8B
&lt;/h3&gt;&lt;p&gt;如果重視邏輯、數學、複雜分析和中文長文本，可試 DeepSeek R1 distill 7B/8B 或 Qwen 3 8B 量化版。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Q4_K_M&lt;/code&gt; 通常能讓 8B 模型進入 8GB 可承受範圍。實際速度受上下文長度、後端、驅動和筆電功耗模式影響。&lt;/p&gt;
&lt;p&gt;不建議一開始跑 14B、32B 或更大模型。即使能透過 CPU offload 啟動，體驗通常不如小模型全 GPU。&lt;/p&gt;
&lt;h3 id=&#34;程式碼qwen-25-coder-3b7b&#34;&gt;程式碼：Qwen 2.5 Coder 3B/7B
&lt;/h3&gt;&lt;p&gt;Qwen 2.5 Coder 3B 適合即時補全、解釋和小片段生成；7B 理解能力更好，但顯存和延遲更高。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;即時補全：3B。&lt;/li&gt;
&lt;li&gt;問答和解釋：3B 或 7B。&lt;/li&gt;
&lt;li&gt;小型重構：7B 量化。&lt;/li&gt;
&lt;li&gt;大型架構分析：不要期待 8GB 顯存容納完整專案上下文。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;圖像生成&#34;&gt;圖像生成
&lt;/h2&gt;&lt;h3 id=&#34;sd-15-和-sdxl&#34;&gt;SD 1.5 和 SDXL
&lt;/h3&gt;&lt;p&gt;SD 1.5 對 8GB 很友好，速度快，生態成熟。SDXL 要求更高，但仍可用。&lt;/p&gt;
&lt;p&gt;推薦工具：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ComfyUI&lt;/li&gt;
&lt;li&gt;Stable Diffusion WebUI Forge&lt;/li&gt;
&lt;li&gt;Fooocus&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;SD 1.5 適合快速出圖、LoRA、ControlNet；SDXL 更適合通用品質。&lt;/p&gt;
&lt;h3 id=&#34;flux1-schnell&#34;&gt;FLUX.1 schnell
&lt;/h3&gt;&lt;p&gt;FLUX 畫質和提示詞理解更強，但原始模型顯存壓力大。8GB 顯存建議使用 GGUF、NF4、FP8 等低顯存方案，搭配 ComfyUI-GGUF 或低顯存工作流。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用 FLUX.1 schnell GGUF Q4/Q5。&lt;/li&gt;
&lt;li&gt;降低解析度或 batch size。&lt;/li&gt;
&lt;li&gt;使用 ComfyUI &lt;code&gt;--lowvram&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;不要同時掛太多 LoRA、ControlNet 和高清修復。&lt;/li&gt;
&lt;li&gt;觀察工作流切換後顯存是否釋放。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;可以嘗試 1024px，但不要照搬 16GB/24GB 桌機工作流。&lt;/p&gt;
&lt;h2 id=&#34;多模態與效率工具&#34;&gt;多模態與效率工具
&lt;/h2&gt;&lt;p&gt;Whisper large-v3 可用於語音轉文字，適合會議錄音、課程音訊、影片字幕和素材整理。長批次要開性能模式並注意散熱。&lt;/p&gt;
&lt;p&gt;照片檢索系統則很適合 4060 8GB。CLIP、ViT、SigLIP 對顯存要求不誇張，可快速處理幾千張圖片。&lt;/p&gt;
&lt;p&gt;典型流程：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;用 CLIP/ViT/SigLIP 提取 embedding。&lt;/li&gt;
&lt;li&gt;保存到 SQLite 或向量庫。&lt;/li&gt;
&lt;li&gt;用文字或相似圖片檢索。&lt;/li&gt;
&lt;li&gt;用小型 LLM 生成標籤、描述或相簿摘要。&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;推薦組合&#34;&gt;推薦組合
&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Ollama / LM Studio
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ Gemma 4 E4B 量化版
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ DeepSeek R1 Distill 7B/8B Q4
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ Qwen 3 8B Q4
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Qwen 2.5 Coder 3B
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ Qwen 2.5 Coder 7B Q4
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ Continue / Cline / 本地 OpenAI-compatible server
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ComfyUI / Forge
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ SDXL
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ SD 1.5
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ FLUX.1 schnell GGUF Q4/Q5
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;CLIP / SigLIP / ViT
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ SQLite / FAISS / LanceDB
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ Gemma 4 E4B 或 Phi-4 Mini 做文本整理
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;避坑&#34;&gt;避坑
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;場景&lt;/th&gt;
          &lt;th&gt;建議&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;大模型&lt;/td&gt;
          &lt;td&gt;避免 14B+，除非接受明顯降速&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;量化&lt;/td&gt;
          &lt;td&gt;先選 &lt;code&gt;Q4_K_M&lt;/code&gt;，再嘗試 Q5&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;顯存&lt;/td&gt;
          &lt;td&gt;用工作管理員或 &lt;code&gt;nvidia-smi&lt;/code&gt; 監控&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;散熱&lt;/td&gt;
          &lt;td&gt;生圖和批次任務開性能模式&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;解析度&lt;/td&gt;
          &lt;td&gt;從 768px 或單張 1024px 開始&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;瀏覽器&lt;/td&gt;
          &lt;td&gt;關掉佔顯存的分頁&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;驅動&lt;/td&gt;
          &lt;td&gt;保持 NVIDIA 驅動較新&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;工作流&lt;/td&gt;
          &lt;td&gt;不要照搬 16GB/24GB ComfyUI 工作流&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;建議定位&#34;&gt;建議定位
&lt;/h2&gt;&lt;p&gt;筆記型 RTX 4060 8GB 最適合做高性價比本地 AI 入門平台。它適合 3B-8B LLM、小型程式碼模型、SDXL、SD 1.5、FLUX 量化體驗、Whisper、圖像向量索引和照片管理。&lt;/p&gt;
&lt;p&gt;不適合長期跑 14B/32B、大型未量化模型、高解析度批量 FLUX、大規模影片生成或多模型同時常駐。&lt;/p&gt;
&lt;h2 id=&#34;參考資料&#34;&gt;參考資料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://deepmind.google/models/gemma/gemma-4/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google DeepMind: Gemma 4&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/google/gemma-4-E4B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;google/gemma-4-E4B&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2501.12948&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek-R1 論文&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://comfyui-wiki.com/en/tutorial/advanced/image/flux/flux-1-dev-t2i&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;ComfyUI FLUX.1 GGUF 指南&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/vava22684/FLUX.1-schnell-gguf&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;FLUX.1 schnell GGUF&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>AMD ROCm 7.2 &#43; ComfyUI 相容性配置：Windows 上的 CUDA 平替怎麼用</title>
        <link>https://knightli.com/zh-tw/2026/05/08/amd-rocm-72-comfyui-windows-compatibility/</link>
        <pubDate>Fri, 08 May 2026 10:09:05 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/08/amd-rocm-72-comfyui-windows-compatibility/</guid>
        <description>&lt;p&gt;過去很長一段時間，本地 AI 繪圖和影片工具幾乎預設圍繞 NVIDIA CUDA 展開。Stable Diffusion、ComfyUI、AnimateDiff、影片超分、LLM 推理和各種外掛，大多優先適配 CUDA。AMD 顯卡雖然顯存性價比不錯，但在 Windows 上經常要繞 DirectML、ZLUDA、Linux ROCm 或社群補丁，穩定性和教學一致性都不如 NVIDIA。&lt;/p&gt;
&lt;p&gt;ROCm 7.2 系列讓這個局面有了明顯變化。AMD 在 CES 2026 期間發布 Ryzen AI 400 系列，並把 ROCm、Radeon、Ryzen AI 和 Windows AI 工作流放到同一條線上。官方文件顯示，ROCm 7.2.1 已經面向 Windows 更新 AMD Radeon 和 Ryzen AI 處理器上的 PyTorch 支援，ComfyUI Desktop 也從 v0.7.0 開始提供官方 AMD ROCm 支援。&lt;/p&gt;
&lt;p&gt;這不代表 AMD 已經完全追平 CUDA 生態，但至少說明一件事：在 Windows 上用 AMD 顯卡跑 ComfyUI，正在從「折騰型方案」變成「可認真評估的方案」。&lt;/p&gt;
&lt;h2 id=&#34;rocm-72-系列帶來了什麼&#34;&gt;ROCm 7.2 系列帶來了什麼
&lt;/h2&gt;&lt;p&gt;ROCm 是 AMD 面向 GPU 計算和機器學習的開放軟體堆疊，定位上對應 NVIDIA CUDA。它包括 HIP、編譯器、數學庫、深度學習庫、Profiler、PyTorch 適配和一系列底層元件。&lt;/p&gt;
&lt;p&gt;ROCm 7.2 系列對桌面使用者最值得關注的變化有三點。&lt;/p&gt;
&lt;p&gt;第一，Windows 支援更正式。AMD 的 Radeon/Ryzen ROCm 文件寫明，Windows 上的 PyTorch 已經更新到 ROCm 7.2.1，覆蓋 AMD Radeon 圖形產品和 AMD Ryzen AI 處理器。這對 ComfyUI、Hugging Face Transformers 和本地推理工具很關鍵，因為大多數上層工具最終都要落到 PyTorch。&lt;/p&gt;
&lt;p&gt;第二，硬體支援範圍更清楚。官方文件提到，ROCm 7.2.1 支援 Radeon 9000 系列、部分 Radeon 7000 系列，以及 Ryzen AI Max 300、部分 Ryzen AI 400 和部分 Ryzen AI 300 APU。也就是說，不能看到「AMD 顯卡」就預設全部支援，具體型號仍要查相容矩陣。&lt;/p&gt;
&lt;p&gt;第三，ComfyUI 有了官方入口。ComfyUI 官方部落格在 2026 年 1 月宣布，Windows ComfyUI Desktop 從 v0.7.0 起支援 AMD ROCm。這對普通使用者很重要，因為它減少了手動裝環境、找 wheel、改啟動參數的成本。&lt;/p&gt;
&lt;p&gt;對想找 CUDA 平替的人來說，這些變化比單純跑分更重要。AI 工具能不能長期使用，取決於驅動、框架、模型、外掛和前端是否能穩定連起來。&lt;/p&gt;
&lt;h2 id=&#34;哪些硬體更適合&#34;&gt;哪些硬體更適合
&lt;/h2&gt;&lt;p&gt;目前 AMD 路線要分成三類看。&lt;/p&gt;
&lt;p&gt;第一類是 Radeon 9000 系列。這是 ROCm 7.2 系列重點覆蓋的新一代獨顯，優先級最高。如果你現在才準備買 AMD 顯卡跑本地 AI，優先看這類型號。&lt;/p&gt;
&lt;p&gt;第二類是部分 Radeon 7000 系列。它們屬於 RDNA 3，已有一定 ROCm 支援基礎，但不是所有型號都同等穩定。買之前必須查 AMD 官方相容矩陣，尤其要確認 Windows、Linux、PyTorch 和目標工具是否同時支援。&lt;/p&gt;
&lt;p&gt;第三類是 Ryzen AI APU。Ryzen AI 400 系列和 Ryzen AI Max 300 系列的意義在於把 CPU、GPU、NPU 和共享記憶體帶進輕薄筆電、小主機和開發設備。它們更適合輕量推理、開發測試、行動辦公和小規模 ComfyUI 工作流，不適合和高階獨顯硬拼大模型吞吐。&lt;/p&gt;
&lt;p&gt;如果目標是流暢跑主流 AI 繪圖，獨顯仍然更穩。APU 的優勢是整合度和共享記憶體，適合嘗鮮與便攜，不適合承擔重型影片生成或大批量出圖。&lt;/p&gt;
&lt;h2 id=&#34;windows-下推薦路線&#34;&gt;Windows 下推薦路線
&lt;/h2&gt;&lt;p&gt;普通使用者在 Windows 上跑 ComfyUI，建議優先使用 ComfyUI Desktop。原因很簡單：它是官方支援路徑，能減少環境衝突，也更容易跟隨上游更新。&lt;/p&gt;
&lt;p&gt;大致流程可以這樣理解：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;確認系統是 Windows 11，並更新 AMD Software: Adrenalin Edition。&lt;/li&gt;
&lt;li&gt;確認顯卡或 APU 在 AMD ROCm Radeon/Ryzen 相容矩陣內。&lt;/li&gt;
&lt;li&gt;安裝 ComfyUI Desktop v0.7.0 或更新版本。&lt;/li&gt;
&lt;li&gt;讓 ComfyUI Desktop 使用 AMD ROCm 後端。&lt;/li&gt;
&lt;li&gt;首次啟動後檢查控制台裡的 PyTorch/ROCm 資訊。&lt;/li&gt;
&lt;li&gt;先用基礎 SDXL 或 Flux 工作流測試，再逐步安裝外掛。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果使用手動版 ComfyUI，思路也類似：先裝 Python，再裝對應 ROCm 7.2 系列的 PyTorch，然後啟動 &lt;code&gt;main.py&lt;/code&gt;。AMD 官方 ComfyUI 安裝文件提醒，執行後要確認終端裡顯示的是 ROCm 7.2.1 對應的 PyTorch 版本。&lt;/p&gt;
&lt;p&gt;低顯存設備可以加啟動參數：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-powershell&#34; data-lang=&#34;powershell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;python&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;main&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;py&#34;&gt;py&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;-lowvram&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;-&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;-disable-pinned-memory&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;這兩個參數不一定提升速度，但能減少部分記憶體和顯存壓力。對 8GB、12GB 或共享記憶體設備，先保證能穩定跑完，比追求單次出圖速度更重要。&lt;/p&gt;
&lt;h2 id=&#34;linux-仍然更適合重度使用者&#34;&gt;Linux 仍然更適合重度使用者
&lt;/h2&gt;&lt;p&gt;ROCm 在 Windows 上變得更可用了，但 Linux 仍然是 AMD AI 工作流更成熟的環境。官方文件也顯示，Radeon 在 Linux 上支援的框架更完整，包括 PyTorch、TensorFlow、JAX、ONNX、vLLM、Llama.cpp 和部分訓練能力。&lt;/p&gt;
&lt;p&gt;如果你的需求只是 ComfyUI 出圖，Windows 已經值得嘗試。&lt;br&gt;
如果你還要跑 vLLM、訓練 LoRA、批量影片生成、多卡、Docker、自動化腳本和長期服務，Linux 仍然更合適。&lt;/p&gt;
&lt;p&gt;可以按需求選擇：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Windows：適合桌面使用者、ComfyUI Desktop、輕量繪圖、本地嘗鮮。&lt;/li&gt;
&lt;li&gt;Linux：適合開發者、重度 AI 使用者、伺服器、批處理和更完整 ROCm 生態。&lt;/li&gt;
&lt;li&gt;WSL：適合想留在 Windows 但需要 Linux 工具鏈的人，不過要確認 ROCDXG、驅動和硬體是否在支援範圍內。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;不要把 Windows ROCm 當成所有問題的答案。它解決的是入門門檻和桌面體驗，重度生產仍要看 Linux 支援。&lt;/p&gt;
&lt;h2 id=&#34;comfyui-外掛相容要謹慎&#34;&gt;ComfyUI 外掛相容要謹慎
&lt;/h2&gt;&lt;p&gt;ComfyUI 的麻煩不只在主程式，而在外掛生態。很多節點預設按 CUDA、xFormers、Triton、FlashAttention 或特定 PyTorch 擴展來寫。換到 AMD ROCm 後，常見問題包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;外掛調用了 CUDA-only 擴展。&lt;/li&gt;
&lt;li&gt;某些加速庫沒有 ROCm wheel。&lt;/li&gt;
&lt;li&gt;自訂節點安裝腳本預設檢查 NVIDIA 環境。&lt;/li&gt;
&lt;li&gt;影片節點依賴的編解碼或光流庫不支援 AMD。&lt;/li&gt;
&lt;li&gt;新模型工作流預設使用 NVIDIA 最佳化配置。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;因此，不建議一開始就把舊的 NVIDIA ComfyUI 整個目錄搬過來。更穩的做法是先裝乾淨環境，跑通基礎模型，再逐個加外掛。&lt;/p&gt;
&lt;p&gt;推薦測試順序：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;基礎文生圖。&lt;/li&gt;
&lt;li&gt;圖生圖。&lt;/li&gt;
&lt;li&gt;LoRA。&lt;/li&gt;
&lt;li&gt;ControlNet。&lt;/li&gt;
&lt;li&gt;放大和高清修復。&lt;/li&gt;
&lt;li&gt;AnimateDiff 或影片節點。&lt;/li&gt;
&lt;li&gt;Flux、SD3、Wan、HunyuanVideo 等更重模型。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;每加一類外掛都做一次小測試。哪一步壞了，就能知道問題大機率來自哪個節點或依賴。&lt;/p&gt;
&lt;h2 id=&#34;amd-顯卡跑-ai-繪圖的優勢&#34;&gt;AMD 顯卡跑 AI 繪圖的優勢
&lt;/h2&gt;&lt;p&gt;AMD 路線最大的吸引力是顯存和價格。很多使用者選擇 AMD，不是因為它在 AI 軟體生態上已經比 CUDA 更省心，而是因為同價位顯存更大，適合本地創作和長時間試驗。&lt;/p&gt;
&lt;p&gt;大顯存對 ComfyUI 很實際：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;可以跑更大的 checkpoint。&lt;/li&gt;
&lt;li&gt;可以提高解析度。&lt;/li&gt;
&lt;li&gt;可以載入更多 LoRA、ControlNet 和參考圖節點。&lt;/li&gt;
&lt;li&gt;可以減少低顯存模式帶來的速度損失。&lt;/li&gt;
&lt;li&gt;影片生成和批量出圖更不容易爆顯存。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果 ROCm 7.2 系列能讓 Windows 上的 PyTorch 和 ComfyUI 穩定跑起來，AMD 顯卡就會成為更現實的 CUDA 平替，尤其適合不想上雲、又想保留較大本地顯存的人。&lt;/p&gt;
&lt;h2 id=&#34;仍然要接受的限制&#34;&gt;仍然要接受的限制
&lt;/h2&gt;&lt;p&gt;AMD 路線現在能用，但還不是「無腦替代 CUDA」。&lt;/p&gt;
&lt;p&gt;主要限制包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;支援型號有限，老卡和部分中低階卡不一定在官方列表內。&lt;/li&gt;
&lt;li&gt;Windows 上框架支援仍少於 Linux。&lt;/li&gt;
&lt;li&gt;很多 AI 教學仍預設 NVIDIA。&lt;/li&gt;
&lt;li&gt;部分 ComfyUI 外掛只測過 CUDA。&lt;/li&gt;
&lt;li&gt;遇到報錯時，社群答案比 NVIDIA 少。&lt;/li&gt;
&lt;li&gt;同一模型在不同後端的效能差異可能很大。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以選 AMD 路線前，最好先確認三個問題：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;你的顯卡是否在官方相容矩陣裡。&lt;/li&gt;
&lt;li&gt;你的主要工具是否明確支援 ROCm。&lt;/li&gt;
&lt;li&gt;你的核心外掛是否依賴 CUDA-only 擴展。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果這三個問題都能接受，AMD 才是可靠選擇。否則，省下來的硬體成本可能會被環境排錯時間抵消。&lt;/p&gt;
&lt;h2 id=&#34;推薦配置思路&#34;&gt;推薦配置思路
&lt;/h2&gt;&lt;p&gt;如果是新手，建議選擇 Windows 11 + 支援列表內的 Radeon 9000/7000 系列 + ComfyUI Desktop。先用官方路徑跑通，不要急著裝一堆第三方節點。&lt;/p&gt;
&lt;p&gt;如果是開發者，建議準備 Linux 環境。ROCm 在 Linux 上工具鏈更完整，也更適合批量任務、LLM 推理、Docker 和自動化部署。&lt;/p&gt;
&lt;p&gt;如果是筆電或小主機使用者，Ryzen AI 400 和 Ryzen AI Max 平台適合本地輕量 AI。它們可以做開發、預覽、簡單繪圖和小模型推理，但不要按高階獨顯的預期來規劃影片生成。&lt;/p&gt;
&lt;p&gt;如果是重度 ComfyUI 使用者，優先關注顯存、驅動版本和外掛相容。AMD 顯存優勢很誘人，但工作流裡只要有一個關鍵節點不支援 ROCm，就可能影響整體體驗。&lt;/p&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;p&gt;ROCm 7.2 系列讓 AMD 在 Windows 本地 AI 上前進了一大步。Radeon 和 Ryzen AI 的 PyTorch 支援更明確，ComfyUI Desktop 也開始提供官方 ROCm 支援，這讓 AMD 顯卡第一次真正接近普通使用者可接受的 CUDA 平替體驗。&lt;/p&gt;
&lt;p&gt;但「可用」不等於「全相容」。目前最穩的策略是：先查相容矩陣，再走官方安裝路徑，先跑基礎 ComfyUI，再逐步添加外掛和複雜影片工作流。Windows 適合輕量和桌面創作，Linux 仍適合重度開發和生產。&lt;/p&gt;
&lt;p&gt;如果你追求最省心，CUDA 仍然是主流答案。&lt;br&gt;
如果你願意為更大顯存和開放生態多做一點驗證，ROCm 7.2 + ComfyUI 已經值得認真嘗試。&lt;/p&gt;
&lt;h2 id=&#34;參考資料&#34;&gt;參考資料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.amd.com/en/newsroom/press-releases/2026-1-5-amd-expands-ai-leadership-across-client-graphics-.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;AMD: CES 2026 Ryzen AI 與 ROCm 公告&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://rocmdocs.amd.com/en/develop/release/versions.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;ROCm Release History&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://rocmdocs.amd.com/en/develop/about/release-notes.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;ROCm 7.2 Release Notes&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://rocm.docs.amd.com/projects/radeon-ryzen/en/latest/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;AMD ROCm on Radeon and Ryzen 文件&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://rocm.docs.amd.com/projects/radeon-ryzen/en/latest/docs/advanced/advancedrad/windows/comfyui/installcomfyui.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;AMD ROCm: Windows 安裝 ComfyUI&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://blog.comfy.org/p/official-amd-rocm-support-arrives&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;ComfyUI: Official AMD ROCm Support Arrives on Windows&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Pixelle-Video：一句主題生成短影片的開源 AI 引擎</title>
        <link>https://knightli.com/zh-tw/2026/05/07/pixelle-video-ai-short-video-engine/</link>
        <pubDate>Thu, 07 May 2026 20:25:17 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/07/pixelle-video-ai-short-video-engine/</guid>
        <description>&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/AIDC-AI/Pixelle-Video&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Pixelle-Video&lt;/a&gt; 是 AIDC-AI 開源的全自動短影片生成引擎。它的目標很直白：使用者輸入一個主題，系統自動完成影片文案、AI 配圖或影片、語音解說、背景音樂和最終合成。&lt;/p&gt;
&lt;p&gt;這類工具適合短影片批量創作、知識科普、口播內容、小說解說、歷史文化類影片和自媒體素材實驗。它不是單一的「文生影片模型」，而是把多種 AI 能力接成一條生產流水線。&lt;/p&gt;
&lt;h2 id=&#34;它能自動做什麼&#34;&gt;它能自動做什麼
&lt;/h2&gt;&lt;p&gt;Pixelle-Video 的預設流程可以概括為：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;輸入主題或固定文案；&lt;/li&gt;
&lt;li&gt;由大型語言模型生成解說詞；&lt;/li&gt;
&lt;li&gt;根據分鏡規劃生成配圖或影片素材；&lt;/li&gt;
&lt;li&gt;使用 TTS 生成語音解說；&lt;/li&gt;
&lt;li&gt;添加背景音樂；&lt;/li&gt;
&lt;li&gt;套用影片模板並合成最終成片。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;README 中給出的流程是「文案生成 → 配圖規劃 → 逐幀處理 → 影片合成」。這種模組化設計的好處是清晰：每一步都可以替換模型、調整參數或改用自訂工作流。&lt;/p&gt;
&lt;h2 id=&#34;功能亮點&#34;&gt;功能亮點
&lt;/h2&gt;&lt;p&gt;專案支援的能力相當完整：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;AI 智慧文案：根據主題自動生成影片解說詞；&lt;/li&gt;
&lt;li&gt;AI 配圖：為每句話或每個分鏡生成插圖；&lt;/li&gt;
&lt;li&gt;AI 影片生成：支援接入 WAN 2.1 等影片生成模型；&lt;/li&gt;
&lt;li&gt;TTS 語音：支援 Edge-TTS、Index-TTS 等方案；&lt;/li&gt;
&lt;li&gt;背景音樂：可以使用內建 BGM，也可以放入自訂音樂；&lt;/li&gt;
&lt;li&gt;多尺寸輸出：支援直式、橫式等不同影片比例；&lt;/li&gt;
&lt;li&gt;多模型選擇：可接入 GPT、通義千問、DeepSeek、Ollama 等；&lt;/li&gt;
&lt;li&gt;ComfyUI 工作流：可以使用預置工作流，也可以替換生圖、TTS、影片生成等環節。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最近更新裡還提到動作遷移、數位人口播、圖生影片、多語言 TTS 音色、RunningHub 支援、Windows 一鍵整合包等內容。這說明專案已經不只是一個腳本，而是在往完整創作工具方向發展。&lt;/p&gt;
&lt;h2 id=&#34;安裝和啟動方式&#34;&gt;安裝和啟動方式
&lt;/h2&gt;&lt;p&gt;Windows 使用者可以優先看官方提供的一鍵整合包。它的定位是降低安裝門檻，不需要手動準備 Python、uv 或 ffmpeg，解壓後執行 &lt;code&gt;start.bat&lt;/code&gt;，再在瀏覽器裡打開 Web 介面配置 API 和圖像生成服務。&lt;/p&gt;
&lt;p&gt;如果從源碼啟動，README 給出的基本方式是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/AIDC-AI/Pixelle-Video.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; Pixelle-Video
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;uv run streamlit run web/app.py
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;源碼方式適合 macOS、Linux 使用者，也適合需要修改模板、工作流或服務配置的人。前置依賴主要是 &lt;code&gt;uv&lt;/code&gt; 和 &lt;code&gt;ffmpeg&lt;/code&gt;。&lt;/p&gt;
&lt;h2 id=&#34;配置重點&#34;&gt;配置重點
&lt;/h2&gt;&lt;p&gt;第一次使用時，關鍵不是先點「生成」，而是把幾個外部能力接好。&lt;/p&gt;
&lt;p&gt;LLM 配置決定文案品質。你可以選擇通義千問、GPT、DeepSeek、Ollama 等模型，並填寫對應的 API Key、Base URL 和模型名。如果想盡量降低成本，本地 Ollama 是一個方向；如果追求穩定效果，雲端模型會更省心。&lt;/p&gt;
&lt;p&gt;圖像和影片生成配置決定畫面品質。專案支援本地 ComfyUI，也支援 RunningHub。懂 ComfyUI 的使用者可以把自己的工作流放進 &lt;code&gt;workflows/&lt;/code&gt; 目錄，用來替換預設生圖、影片或 TTS 流程。&lt;/p&gt;
&lt;p&gt;模板配置決定最終成片的視覺形態。專案用 &lt;code&gt;templates/&lt;/code&gt; 目錄組織影片模板，靜態模板、圖片模板和影片模板按命名規則區分。對內容創作者來說，這比只生成一段素材更實用，因為最終交付物是可以直接預覽和下載的影片。&lt;/p&gt;
&lt;h2 id=&#34;適合什麼人&#34;&gt;適合什麼人
&lt;/h2&gt;&lt;p&gt;Pixelle-Video 比較適合三類使用者：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;短影片創作者&lt;/strong&gt;：想快速把選題變成可發布的草稿影片；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;AIGC 工具玩家&lt;/strong&gt;：想把 LLM、ComfyUI、TTS 和影片合成串起來；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;開發者和自動化使用者&lt;/strong&gt;：想基於開源專案改模板、改工作流，甚至接入自己的素材和模型。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果你只想偶爾做一支高品質精品影片，它未必能直接替代人工剪輯；但如果你想批量生成結構一致的解釋類、口播類、科普類內容，它的流水線思路很有價值。&lt;/p&gt;
&lt;h2 id=&#34;需要注意的地方&#34;&gt;需要注意的地方
&lt;/h2&gt;&lt;p&gt;這類工具的上限由多個環節共同決定。文案模型不好，內容會空；配圖模型不好，畫面會散；TTS 不自然，影片會顯得粗糙；模板不合適，最終成片也會缺少辨識度。&lt;/p&gt;
&lt;p&gt;所以使用 Pixelle-Video 時，建議先從一個固定場景開始調試，比如「60 秒知識科普直式影片」。把 LLM、畫面風格、TTS 音色、BGM 和模板固定下來，再逐步擴大到其他主題。&lt;/p&gt;
&lt;p&gt;另外，專案雖然支援本地免費方案，但本地方案通常需要顯卡、ComfyUI 配置和模型檔案。沒有本地推理環境的使用者，可以用雲端 LLM 加 RunningHub 的方式降低部署難度，但要留意呼叫成本。&lt;/p&gt;
&lt;h2 id=&#34;簡短判斷&#34;&gt;簡短判斷
&lt;/h2&gt;&lt;p&gt;Pixelle-Video 的看點不只是「輸入一句話生成影片」，而是它把短影片生產拆成可替換的模組：文案、畫面、語音、音樂、模板和合成。對普通使用者，它是一個低門檻 AI 影片工具；對開發者，它更像一個可改造的短影片自動化框架。&lt;/p&gt;
&lt;p&gt;如果你正在研究 AI 短影片流水線，或者想把 ComfyUI、TTS、LLM 和模板合成串成一個可用產品，Pixelle-Video 值得試用和拆解。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
