AI视频 on KnightLi的博客

Gemini 3.5 Flash 和 Gemini Omni 怎么免费用：普通用户与开发者入口整理

Wed, 20 May 2026 23:13:35 +0800

Google 发布 Gemini 3.5 Flash 和 Gemini Omni 后，最实际的问题不是 benchmark，而是普通用户和开发者到底怎么用，哪些入口免费，哪些入口只是低门槛试用。

先说结论：

想聊天、写作、看图、日常问答：优先用 Gemini app。
想测试 Gemini 3.5 Flash 参数、提示词和多模态输入：用 Google AI Studio。
想写程序调用 Gemini 3.5 Flash：用 AI Studio 生成 API key。
想在终端里免费试用：可以看 Gemini CLI。
想体验 Gemini Omni 的视频编辑：优先看 Gemini app 和 Google Flow。
想做正式生产：不要依赖免费额度，应该转到付费 API 或 Vertex AI。

注意：免费额度、地区开放、订阅层级和模型下拉菜单会随时间变化。本文写作时间是 2026 年 5 月 20 日，正式使用前要以 Google 当前页面为准。

Gemini 3.5 Flash 免费用法一：Gemini app

最简单的入口是 Gemini app：

https://gemini.google.com/

使用方式很直接：

打开 Gemini。
登录 Google 账号。
在模型选择里找 3.5 Flash。
直接开始对话。

这个入口适合普通用户。你可以用它做写作、总结、图片理解、文件内容分析、日常问答和简单规划。根据公开报道，Gemini 3.5 Flash 已面向全球用户开放，并可在 Gemini 的模型下拉菜单中选择。

限制也很明确：免费用户通常会有每日消息数量、地区和功能限制。如果超过限制，就需要等待额度刷新或升级订阅。

Gemini 3.5 Flash 免费用法二：Google AI Studio

如果你不是只想聊天，而是想调提示词、看参数、测试结构化输出，Google AI Studio 更合适：

https://aistudio.google.com/

基本流程：

登录 Google AI Studio。
新建 prompt。
在模型下拉菜单里选择 gemini-3.5-flash。
输入提示词并运行。

AI Studio 的好处是控制能力更强。你可以调温度、系统指令、结构化输出、多图输入，还能把测试好的提示词导出成代码或 API 调用。

对开发者来说，AI Studio 是免费的试验台。先在这里把提示词和输入格式调好，再进入 API 接入，会少浪费很多额度。

Gemini 3.5 Flash 免费用法三：免费 API key

开发者最关心的是 API。AI Studio 可以创建 Gemini API key，用来调用 gemini-3.5-flash。

基本流程：

打开 Google AI Studio。
找到 Get API key。
选择或创建项目。
创建 API key。
把 key 保存到本地环境变量。

Python 示例：

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="用三句话解释 Gemini 3.5 Flash 适合什么场景。"
)

print(response.text)

Node.js 示例：

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "用三句话解释 Gemini 3.5 Flash 适合什么场景。"
});

console.log(response.text);

curl 示例：

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"contents":[{"parts":[{"text":"Hello Gemini 3.5 Flash"}]}]}'

公开资料显示，AI Studio 免费层通常会给 Gemini Flash 模型一定的每日请求额度。不同时间、地区和账号状态可能不同，常见说法包括每天约 1,500 次请求、每分钟请求数限制和 token 限制。不要把这些数字写死进生产计划，正式上线前要查看 Google AI 当前定价和限制页面。

Gemini 3.5 Flash 免费用法四：Gemini CLI

如果你喜欢命令行，可以看 Gemini CLI。它适合临时脚本、代码库摘要、文件读取和终端里的快速问答。

安装方式通常是：

`1`	`npm install -g @google/gemini-cli`

然后运行：

gemini

CLI 更适合个人开发者日常使用，不适合生产集成。生产环境还是应该使用 API key、服务账号、权限控制和可审计的调用方式。

Gemini Omni 免费或低门槛用法：Gemini app 和 Google Flow

Gemini Omni 是面向视频创作和编辑的多模态模型。它的核心能力不是普通文本问答，而是用自然语言多轮修改视频，并引用图像、文本、视频、音频等输入。

Google DeepMind 页面给出的入口包括：

Gemini app。
Google Flow。
YouTube Shorts。

页面也说明，需要 Google AI 订阅，功能会因订阅层级和地区不同而变化。因此，Gemini Omni 的“免费用法”要更谨慎理解：有些入口可能允许免费用户看到或试用部分能力，但完整视频编辑能力可能需要订阅、地区开放或产品灰度。

如果你只是想体验，建议按这个顺序试：

先打开 Gemini app，查看是否有 Gemini Omni 或相关视频编辑入口。
再打开 Google Flow：https://flow.google/
如果你做短视频内容，再关注 YouTube Shorts 里是否出现 Omni 相关编辑能力。

如果入口不可见，通常不是你操作错了，而是账号、地区、订阅层级或灰度范围暂时不满足。

Gemini Omni 适合怎么用

Gemini Omni 更适合创作者，而不是普通聊天。

你可以尝试这些方向：

上传或选择一段视频，让它改变风格。
让视频中的某个动作变得更夸张。
用一张参考图替换场景里的物体或角色。
分多轮修改镜头、动作、环境和风格。
把草图、参考图、音频或视频组合成一个新输出。

提示词可以写得像给剪辑师提要求：

`1`	`保持原视频的人物和房间结构不变，把镜子触碰后的效果改成液体波纹，动作要自然，光线不要突然变化。`

多轮编辑时，不要一次塞太多要求。更稳妥的做法是：

先改主体动作。
再改风格。
再改镜头角度。
最后调节声音、文字和节奏。

这样更容易保持一致性，也更容易定位是哪一步出了问题。

免费使用时最容易踩的坑

第一，免费额度不是生产额度。免费 API key 适合测试、个人工具和原型，不适合承诺稳定服务。

第二，不要把敏感数据发到免费或第三方入口。尤其是未公开代码、客户资料、合同、密钥、财务表格和内部文档。

第三，注意数据使用设置。免费层可能有不同的数据使用策略，使用前要查看 AI Studio 或 Google 账号里的相关设置。

第四，视频能力通常比文本能力更受限。Gemini Omni 这类视频编辑功能可能受订阅、地区、排队、时长、分辨率和内容安全策略影响。

第五，第三方“无限免费 API”要谨慎。很多网关会限速、转发请求、记录日志，甚至要求不透明的支付方式。敏感任务不建议走这类入口。

应该选哪个入口

如果你是普通用户：

Gemini 3.5 Flash：用 Gemini app。
Gemini Omni：先看 Gemini app，再看 Google Flow。

如果你是创作者：

用 Google Flow 体验 Omni 视频工作流。
用 Gemini app 做脚本、分镜、提示词和素材说明。

如果你是开发者：

用 AI Studio 调试提示词。
用 API key 接入 gemini-3.5-flash。
用 Gemini CLI 做个人终端工作流。
生产环境考虑 Vertex AI 或付费 API。

如果你是企业：

不要依赖免费额度。
重点看权限、日志、审计、数据驻留、合规和密钥管理。
视频生成和编辑还要补充水印、内容审核和版权流程。

小结

Gemini 3.5 Flash 的免费使用路径比较清楚：Gemini app、Google AI Studio、AI Studio API key、Gemini CLI 都可以作为低门槛入口。它适合聊天、写作、编程、Agent 原型和多模态测试。

Gemini Omni 的重点是视频编辑和多模态创作，入口主要在 Gemini app、Google Flow 和 YouTube Shorts，但完整能力更可能受订阅和地区限制。它适合创作者先做体验和概念验证，不适合一开始就按稳定生产服务来规划。

最稳妥的策略是：文本和代码任务先用 Gemini 3.5 Flash 免费层试通；视频创作先用 Gemini Omni 在 Gemini app 或 Flow 里验证效果；真正要上线，再转向可审计、可计费、可控权限的正式方案。

参考来源：

Gemini Omni 是什么？Google AI 视频多轮编辑模型完整解析

Wed, 20 May 2026 23:11:58 +0800

Google DeepMind 公布了 Gemini Omni 页面。它的定位很直接：从任意输入创作内容，当前重点从视频开始。

如果说 Nano Banana 更偏向图像生成和编辑，那么 Gemini Omni 更像是面向视频的多模态编辑模型。用户可以通过自然语言一步步修改视频，让后一次修改建立在前一次修改之上，并尽量保持场景、人物、动作和画面逻辑的一致性。

项目页面：https://deepmind.google/models/gemini-omni/

它解决的核心问题

传统视频编辑往往需要时间线、图层、遮罩、关键帧、调色、音轨和大量手动操作。AI 视频生成工具虽然可以从提示词生成片段，但经常存在两个问题：

一次生成后不容易精细修改。
多轮修改时人物、场景、风格和动作容易漂移。

Gemini Omni 想解决的是第二步：不是只生成一个视频，而是让用户像和剪辑师沟通一样，持续提出修改要求。

页面给出的说法是，它可以通过自然、分步骤的对话编辑任何视频。每次编辑都建立在前一次结果上，目标是保持一个连贯、统一的场景。

主要能力

Gemini Omni 的能力可以分成几类。

第一类是自然语言视频编辑。用户可以直接要求模型改变视频里的审美风格、动作或特效。例如让镜子像液体一样泛起波纹，让人物变成线稿、毛毡玩偶、透明全息线框，或者让整个环境变成 3D voxel art。

第二类是重构动作。它可以改变视频中发生的事情，例如放大手部形成的孔洞、让玩具发出对应动物声音、让建筑灯光随音乐点亮。

第三类是基于参考图像编辑真实视频。用户可以给出图像参考，再要求模型把某种建筑、太阳、飞行器或其它物体放进真实视频场景里。

第四类是多轮编辑保持一致性。页面展示了把小提琴手移动到参考图像环境、让小提琴消失、再把镜头改成越肩角度的连续编辑流程。这比一次性提示词更接近真实创作过程。

第五类是多输入引用。Gemini Omni 可以把图像、文本、视频、音频等输入整合成一个输出，支持风格迁移、动作迁移、角色替换、草图转视频等任务。

为什么它强调世界知识

Google 在页面里反复强调，Gemini Omni 不只是“画面变得真实”，而是结合 Gemini 的世界知识、物理直觉、历史、科学和叙事逻辑。

这点很重要。视频模型如果只追求画面质感，容易出现动作不合逻辑、物体关系混乱、文本和画面不同步的问题。Gemini Omni 的目标是让视频不仅看起来像，还要在故事、物理和语义上更连贯。

页面中的例子包括：

大理石在链式反应轨道上滚动。
用 claymation 解释蛋白质折叠。
用拟物化 stop motion 解释海马体工作方式。
让字母和画面里的物体对应出现。
让屏幕文字按节奏逐词出现。

这些例子说明它不是单纯的短视频特效工具，而是试图把知识表达、叙事和视听生成放在一起。

和 Veo、Flow、Nano Banana 的关系

从 Google 当前产品线看，Gemini Omni 更像是多模态创作和编辑能力的一层入口。

Veo 更偏视频生成模型本身，强调电影感视频和音频生成。Google Flow 是面向创作者的 AI 创意工作室，适合组织镜头、素材和视频项目。Nano Banana 更偏图像创建和细节编辑。Gemini Omni 则强调“从任意输入到一致输出”的多模态编辑，尤其是视频上的多轮自然语言控制。

简单理解：

想生成高质量视频：关注 Veo。
想在创作工作流里组织视频项目：关注 Google Flow。
想编辑图像：关注 Nano Banana。
想用对话方式修改视频，并引用图片、文字、视频、音频：关注 Gemini Omni。

使用入口

页面给出的入口包括：

Gemini app。
Google Flow。
YouTube Shorts。

不过页面也说明，需要 Google AI 订阅，功能会因订阅层级和地区而不同。也就是说，并不是所有用户在所有地区都能立即使用完整能力。

对创作者来说，最值得关注的入口可能是 Google Flow，因为它更接近完整创意工作台。对普通用户来说，Gemini app 和 YouTube Shorts 可能是更低门槛的体验入口。

安全和内容标记

Gemini Omni 页面专门提到安全流程。Gemini Omni Flash 的开发与内部安全、安全责任团队合作，并进行了自动化评估、人工评估、人工红队、自动化红队和发布前伦理安全审查。

内容透明度方面，页面说明通过 Omni 在 Gemini app、Google Flow 或 YouTube 创建或编辑的内容，会包含不可感知的 SynthID 数字水印和 C2PA Content Credentials。用户可以通过 Gemini app 验证内容，后续也会扩展到 Chrome 和搜索。

这部分对视频模型尤其关键。视频生成和视频编辑越真实，越需要内容来源标识、滥用防护和验证工具。

适合哪些人

Gemini Omni 适合几类用户：

想用自然语言快速修改视频的内容创作者。
需要把草图、参考图、音频、视频素材整合成成片的设计团队。
做短视频、广告概念、教育解释视频和产品视觉稿的人。
想在 Google Flow 中构建 AI 视频工作流的创作者。
关注多模态视频编辑能力边界的开发者和研究者。

但它也不一定适合所有场景。严肃商业片、品牌主视觉、影视制作、产品发布视频仍然需要人工审片、版权检查、事实校对和素材管理。AI 可以明显加速概念生成和初稿迭代，但不应替代最终审核。

怎么看 Gemini Omni

Gemini Omni 的意义在于，它把 AI 视频从“一次性生成”推进到“可对话修改”。这比单纯提升画质更接近真实创作流程。

如果它在多轮编辑、一致性、参考素材控制、音画同步和内容标记上表现稳定，AI 视频工具的使用方式会发生变化：用户不再只写一条长提示词赌结果，而是像导演、剪辑师、设计师一样，逐轮修改场景、动作、风格和叙事。

当前仍要看实际开放范围、价格、地区限制、生成时长、分辨率、版权策略和商用规则。对于普通创作者，最实用的观察点是：它在 Google Flow 和 Gemini app 里能不能稳定完成多轮视频修改。

参考来源：

Google DeepMind：Gemini Omni

web-video-presentation：把文章做成可录屏网页视频的 Agent Skill

Fri, 15 May 2026 09:02:15 +0800

web-video-presentation 是 ConardLi/garden-skills 里的一个 agent skill。它要解决的问题很具体：把一篇文章或一段口播稿，做成可以录屏的视频化网页演示。

项目地址：https://github.com/ConardLi/garden-skills/tree/main/skills/web-video-presentation

它不是普通 PPT 模板，也不是单纯的 React 组件库。更准确地说，它是一套面向 AI agent 的视频演示生产流程：先把内容改成口播稿，再拆成 outline，再选主题，再用 Vite + React + TypeScript 做一个 16:9 的点击驱动网页，最后录屏成视频。

它想做的不是幻灯片

README 里有一个很关键的定位：这个 skill 生成的是 “video production surface”，不是 slide deck。

也就是说，它不希望每一页只是标题加 bullet list，而是让每一次点击推进一个口播节拍。每个 step 独占 1920×1080 的舞台，画面随着叙事变化。进度 UI 平时隐藏，只有悬浮时出现，这样录屏画面更干净。

这类形态很适合：

把博客文章做成 B 站 / YouTube 解说视频
把已有口播稿做成动态视觉稿
做产品 demo
做教程视频
做 keynote 风格的视觉演讲
做“动态 PPT，但不像 PPT”的内容

它的核心价值不在于省掉剪辑软件，而是让网页成为一个可控的、可迭代的视频画布。

核心设计原则

这个 skill 的几个原则很清楚。

第一，固定 16:9 舞台。内容在稳定的 1920×1080 坐标系里设计，再缩放到不同视口。这样录屏时不会因为浏览器窗口变化导致布局漂移。

第二，全局 step cursor。用户点击或用键盘推进 (chapter, step)，本地保存进度。它像视频时间线，但用网页状态来控制。

第三，一个 step 只讲一个想法。每个节拍都应该是完整画面，而不是在同一页上不断堆 bullet。

第四，脚本节拍驱动结构。口播稿决定节奏，outline 决定章节和 step，画面跟着叙事走。

第五，motion first。每个场景都应该有一个会动的视觉锚点。如果只是静态段落，说明这一步还没有被设计成视频语言。

第六，主题 token 化。主题不是简单换颜色，而是通过语义 token 控制字体、颜色、卡片、背景、分割线、装饰和整体气质。

这些原则加在一起，能把 AI 从“生成页面”拉到“设计视频节奏”。

工作流分四段

它的工作流分成四个阶段。

第一阶段是内容编写。用户给原始文章时，agent 要把它改写成 script.md，再生成 outline.md。如果用户已经给了口播稿，就直接落盘成 script.md，再生成 outline。

第二阶段是网页开发。agent 用脚手架生成 Vite / React / TypeScript 项目，然后按章节实现画面。第 1 章必须由主线程完整做出来，并让用户验收，因为它是后续章节的风格锚点。

第三阶段是可选音频合成。skill 支持从章节里的 narrations.ts 抽取音频片段定义，再走语音合成流程。

第四阶段是录屏和后期。网页本身作为录屏舞台，用户用录屏工具把点击驱动的演示录成视频。

这个流程里有几个硬检查点：脚本、outline、主题、素材计划、开发模式要先对齐；第 1 章做完必须验收；是否合成音频也要停下来确认。它不允许 agent 从原文一路冲到最终代码。

为什么 outline 不写动画

这个 skill 里一个很有意思的约束是：outline.md 只规划节奏和信息密度，不规划具体动画。

也就是说，outline 可以写：

章节切分
每章 step 数
每步屏幕内容
每章信息池
素材清单
估计时长

但不应该写：

用什么 CSS 动画
用 blur、wipe 还是 spring
每个动效多少毫秒
具体 clip-path 或 filter 实现

原因很合理：如果 outline 把动画写死，后面的章节开发 agent 就会退化成“按说明翻译页面”。真正的视频感应该在实现单章时，根据内容关系即时设计。

这也是它比普通模板更有意思的地方。它把“结构”和“视觉决策”分开，让 AI 有空间做内容驱动的设计，而不是机械套版。

narrations.ts 是唯一真相源

项目结构里有一个关键文件：narrations.ts。

每章都有自己的 narrations.ts，它保存 step 数和对应口播文本。skill 明确要求，章节 .tsx 里出现的最大 step 数，必须和 narrations.length 对齐。

这样做是为了避免五处内容漂移：

script.md
outline.md
章节代码
chapters.ts
音频文件

如果口播、画面、音频和 step 数不一致，视频生产会非常难维护。把 narrations.ts 作为唯一真相源，是这个流程里很实用的工程约束。

内置主题不是简单换皮

README 里列了一组内置主题：

paper-press
warm-keynote
midnight-press
blueprint
chalk-garden
terminal-green
bauhaus-bold
sunset-zine
newsroom
monochrome-print

这些主题不是“红色版”“蓝色版”这种换皮，而是不同视觉方向。比如 paper-press 偏编辑纸张和印刷质感，blueprint 偏技术图纸，terminal-green 偏老式终端，newsroom 偏媒体桌面。

agent 在 Checkpoint Plan 阶段要根据稿子的主题和语气，主动推荐 2 到 3 个合适主题。用户也可以要求自定义新主题。

这点很重要。视频类网页最怕所有主题都长一个样：大标题、渐变背景、卡片、几个圆角按钮。主题系统如果能约束视觉语言，就能减少 AI 生成内容常见的同质化。

开发模式有三种

第 1 章无论如何都必须主线程做完并验收。之后可以选择三种模式。

模式 A 是逐章确认。每章做完都暂停验收，风险最低，也最适合对成片质量要求高的内容。

模式 B 是顺序开发。第 2 章到最后一章由主线程顺序做完，最后统一验收，速度中等。

模式 C 是并行开发。第 1 章通过后，把后续章节交给 subagent 并行实现。它最快，但各章风格可能会有差异。skill 认为这是预期，因为主题 token 负责兜底统一，章节内部可以自由发挥。

这个设计很现实：视频生产既需要风格锚点，也需要生产效率。第一章先定调，后续章节再按风险承受能力选择速度。

适合谁用

这个 skill 特别适合已经有内容素材的人。

如果你手里有一篇文章、一段脚本、一个产品介绍、一份教程、一篇技术解读，它可以把这些内容转成可录屏的网页视频。

但如果你只是说“帮我想一个视频主题”，它并不适合直接接手。SKILL.md 里也明确说了：用户什么都没有时，agent 应该反问，让用户先给素材或大纲。它不是创意选题工具，而是内容转视频的生产流程。

小结

web-video-presentation 的价值，不是帮你生成一套好看的 React 页面，而是把内容视频化这件事拆成可协作、可验收、可复用的流程。

它把文章、口播、outline、主题、章节实现、音频合成和录屏串起来，同时用硬检查点防止 agent 一路跑偏。

如果你经常把技术文章、产品介绍或教程做成视频，这个 skill 值得研究。即使不直接使用它的脚手架，里面关于“一个 step 一个想法”“先定第 1 章风格锚点”“narrations.ts 做唯一真相源”“outline 不写死动画”的方法，也很适合迁移到自己的 AI 内容生产流程里。

米哈游 LPM 1.0 解读：AI 视频模型如何重塑游戏 NPC

Fri, 08 May 2026 22:27:10 +0800

LPM 1.0 最容易被误解成又一个 AI 视频生成模型。只看演示，它未必像一些文生视频产品那样追求宏大的镜头调度和夸张的视觉冲击；但如果把它放回论文里的目标，就会发现它真正想解决的不是“生成一段好看的视频”，而是“让一个数字角色在互动中像是在场”。

这也是 LPM 1.0 和普通视频模型最大的区别。普通视频模型更关注画面质量、镜头连续性和文本指令还原；LPM 1.0 关注的是角色表演：说话时口型、节奏、表情要同步，倾听时也要有点头、视线、停顿和微表情，长时间互动中还要保持角色身份稳定。

从生成视频到生成表演

LPM 是 Large Performance Model，也就是大型表演模型。这个命名很重要，因为它把任务边界从“视频”改成了“表演”。

在真实对话里，一个人是否显得自然，并不只取决于他说了什么。很多时候，倾听本身就构成了交流：对方是否在合适的时候点头，眼神是否跟得上语境，表情是否随着情绪轻微变化，都会影响我们对“这个角色是否活着”的判断。

现有很多数字人方案，本质上仍是在把文本、语音和口型拼接到一个人物形象上。角色会说话，但不一定会听；能输出台词，但不一定能根据上一秒的输入做出连续反应。LPM 1.0 的目标，是把这种被动播报改造成实时互动。

论文里的三个难点

LPM 1.0 论文把问题概括为 AI 角色表演里的三角矛盾：表现力、实时性和长时身份一致性。一个系统可以画面细腻但很慢，也可以响应很快但动作僵硬，或者短时间稳定但长时间后身份漂移。要同时做到三者，难度会明显上升。

为了解这个问题，LPM 1.0 采用了更复杂的角色条件输入。它不是只给模型一张参考图，而是引入多粒度身份参考，包括整体外观、多视角身体和多表情面部参考。这样做的目的，是减少模型对侧脸、牙齿、表情纹理、身体比例等细节的“脑补”，让角色在长时间生成中不容易变形。

论文中还区分了说话和倾听两类行为。说话音频主要驱动口型、语速、头部和身体节奏；倾听音频则更多触发视线、点头、姿态变化和微表情。如果把两类信号混在一起，模型很容易学乱。LPM 1.0 的思路是把 speaking 和 listening 分别建模，再在在线系统里把它们接到同一套互动流程里。

Base LPM 与 Online LPM

从公开论文看，LPM 1.0 的底座是一个 17B 参数的 Diffusion Transformer。Base LPM 负责学习高质量、可控、身份稳定的角色表演视频；Online LPM 则是经过蒸馏后的流式生成器，用来支撑低延迟、长时互动。

这个拆分很关键。离线模型可以追求质量，但互动场景不能让用户等很久。用户一开口，角色就应该开始“听”；角色开始说话时，口型、表情和身体动作也要立刻跟上。Online LPM 的价值，就在于把复杂的视频生成压缩到更接近实时交互的形态。

因此，LPM 1.0 不是单纯给创作者做短视频素材的工具。它更像是对话智能体、虚拟直播角色和游戏 NPC 的视觉引擎：语言模型负责理解和生成内容，语音模型负责声音，LPM 负责让屏幕里的角色以可信的方式“表演出来”。

对游戏的意义

如果把它放进游戏行业，LPM 1.0 指向的并不是更漂亮的过场动画，而是下一代可互动角色。

传统游戏里的 NPC，大多依赖预写脚本、固定动画和有限分支。玩家可以和它对话，但它对玩家的反馈通常是被设计好的。AI 时代的目标会更进一步：同一个世界观下，不同玩家可能获得不同故事线；同一个角色面对不同玩家，也能产生更贴合语境的动作、情绪和回应。

这就是“千人千面”游戏体验真正需要的底层能力。语言模型可以生成台词，行为系统可以决定目标，但如果角色在屏幕上的表现仍然僵硬，玩家很难相信它是一个正在理解自己的对象。LPM 1.0 试图补上的，正是这块视觉和表演层。

不要把它看成万能成品

当然，LPM 1.0 目前更适合作为技术路线来理解，而不是马上等同于可大规模商用的完整产品。论文和演示证明了一种可能性：实时、全双工、身份稳定的角色视频生成正在接近可用状态。但真正进入游戏，还要解决成本、延迟、端侧部署、内容安全、角色版权、多人场景和引擎集成等问题。

更现实的落地路径，可能不是一上来替换所有 NPC，而是先进入虚拟主播、AI 陪伴、剧情互动、角色客服、教育陪练等单人角色场景。等模型成本下降、延迟进一步降低，再逐步进入更复杂的游戏系统。

总结

LPM 1.0 的价值，不在于它能不能生成最惊艳的一段视频，而在于它把 AI 视频的目标从“画面生成”推向了“角色存在感”。

如果未来的游戏真的走向更个性化、更动态、更依赖 AI 角色的形态，那么语言、语音、动作、表情和身份一致性必须被合在一起考虑。LPM 1.0 提供的正是这样一条路线：让数字角色不只是会说话，而是能倾听、能反应，并在长时间互动中保持像同一个人。

参考链接：

Pixelle-Video：一句主题生成短视频的开源 AI 引擎

Thu, 07 May 2026 20:25:17 +0800

Pixelle-Video 是 AIDC-AI 开源的全自动短视频生成引擎。它的目标很直白：用户输入一个主题，系统自动完成视频文案、AI 配图或视频、语音解说、背景音乐和最终合成。

这类工具适合短视频批量创作、知识科普、口播内容、小说解说、历史文化类视频和自媒体素材实验。它不是单一的“文生视频模型”，而是把多种 AI 能力接成一条生产流水线。

它能自动做什么

Pixelle-Video 的默认流程可以概括为：

输入主题或固定文案；
由大语言模型生成解说词；
根据分镜规划生成配图或视频素材；
使用 TTS 生成语音解说；
添加背景音乐；
套用视频模板并合成最终成片。

README 中给出的流程是“文案生成 → 配图规划 → 逐帧处理 → 视频合成”。这种模块化设计的好处是清晰：每一步都可以替换模型、调整参数或改用自定义工作流。

功能亮点

项目支持的能力比较完整：

AI 智能文案：根据主题自动生成视频解说词；
AI 配图：为每句话或每个分镜生成插图；
AI 视频生成：支持接入 WAN 2.1 等视频生成模型；
TTS 语音：支持 Edge-TTS、Index-TTS 等方案；
背景音乐：可以使用内置 BGM，也可以放入自定义音乐；
多尺寸输出：支持竖屏、横屏等不同视频比例；
多模型选择：可接入 GPT、通义千问、DeepSeek、Ollama 等；
ComfyUI 工作流：可以使用预置工作流，也可以替换生图、TTS、视频生成等环节。

最近更新里还提到动作迁移、数字人口播、图生视频、多语言 TTS 音色、RunningHub 支持、Windows 一键整合包等内容。这说明项目已经不只是一个脚本，而是在往完整创作工具方向发展。

安装和启动方式

Windows 用户可以优先看官方提供的一键整合包。它的定位是降低安装门槛，不需要手动准备 Python、uv 或 ffmpeg，解压后运行 start.bat，再在浏览器里打开 Web 界面配置 API 和图像生成服务。

如果从源码启动，README 给出的基本方式是：

1
2
3

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

源码方式适合 macOS、Linux 用户，也适合需要修改模板、工作流或服务配置的人。前置依赖主要是 uv 和 ffmpeg。

配置重点

第一次使用时，关键不是先点“生成”，而是把几个外部能力接好。

LLM 配置决定文案质量。你可以选择通义千问、GPT、DeepSeek、Ollama 等模型，并填写对应的 API Key、Base URL 和模型名。如果想尽量降低成本，本地 Ollama 是一个方向；如果追求稳定效果，云端模型会更省心。

图像和视频生成配置决定画面质量。项目支持本地 ComfyUI，也支持 RunningHub。懂 ComfyUI 的用户可以把自己的工作流放进 workflows/ 目录，用来替换默认生图、视频或 TTS 流程。

模板配置决定最终成片的视觉形态。项目用 templates/ 目录组织视频模板，静态模板、图片模板和视频模板按命名规则区分。对内容创作者来说，这比只生成一段素材更实用，因为最终交付物是可以直接预览和下载的视频。

适合什么人

Pixelle-Video 比较适合三类用户：

短视频创作者：想快速把选题变成可发布的草稿视频；
AIGC 工具玩家：想把 LLM、ComfyUI、TTS 和视频合成串起来；
开发者和自动化用户：想基于开源项目改模板、改工作流，甚至接入自己的素材和模型。

如果你只想偶尔做一个高质量精品视频，它未必能直接替代人工剪辑；但如果你想批量生成结构一致的解释类、口播类、科普类内容，它的流水线思路很有价值。

需要注意的地方

这类工具的上限由多个环节共同决定。文案模型不好，内容会空；配图模型不好，画面会散；TTS 不自然，视频会显得粗糙；模板不合适，最终成片也会缺少辨识度。

所以使用 Pixelle-Video 时，建议先从一个固定场景开始调试，比如“60 秒知识科普竖屏视频”。把 LLM、画面风格、TTS 音色、BGM 和模板固定下来，再逐步扩大到其他主题。

另外，项目虽然支持本地免费方案，但本地方案通常需要显卡、ComfyUI 配置和模型文件。没有本地推理环境的用户，可以用云端 LLM 加 RunningHub 的方式降低部署难度，但要留意调用成本。

简短判断

Pixelle-Video 的看点不只是“输入一句话生成视频”，而是它把短视频生产拆成可替换的模块：文案、画面、语音、音乐、模板和合成。对普通用户，它是一个低门槛 AI 视频工具；对开发者，它更像一个可改造的短视频自动化框架。

如果你正在研究 AI 短视频流水线，或者想把 ComfyUI、TTS、LLM 和模板合成串成一个可用产品，Pixelle-Video 值得试用和拆解。