AI動画 on KnightLiブログ

Gemini 3.5 FlashとGemini Omniを無料で使う方法：一般ユーザーと開発者向け入口まとめ

Wed, 20 May 2026 23:13:35 +0800

GoogleがGemini 3.5 FlashとGemini Omniを公開したあと、実用面で重要なのはbenchmarkではなく、一般ユーザーや開発者が実際にどう使うか、どの入口が無料で、どの入口が低いハードルの試用にすぎないかです。

まず結論です。

チャット、文章作成、画像理解、日常的な質問：まずGemini app。
Gemini 3.5 Flashのパラメータ、プロンプト、マルチモーダル入力を試す：Google AI Studio。
プログラムからGemini 3.5 Flashを呼び出す：AI StudioでAPI keyを作成。
ターミナルで無料試用する：Gemini CLIを確認。
Gemini Omniの動画編集を体験する：Gemini appとGoogle Flowを優先。
本番利用する：無料枠に依存せず、有料APIまたはVertex AIへ移行。

注意点として、無料枠、地域ごとの提供状況、サブスクリプション階層、モデル選択メニューは時間とともに変わります。この記事の執筆日は2026年5月20日です。正式に使う前に、Googleの最新ページを確認してください。

Gemini 3.5 Flashを無料で使う方法1：Gemini app

最も簡単な入口はGemini appです。

https://gemini.google.com/

使い方はシンプルです。

Geminiを開く。
Googleアカウントでログインする。
モデル選択で 3.5 Flash を探す。
そのまま対話を始める。

この入口は一般ユーザーに向いています。文章作成、要約、画像理解、ファイル内容の分析、日常的な質問、簡単な計画づくりに使えます。公開情報によると、Gemini 3.5 Flashは世界中のユーザー向けに提供されており、Geminiのモデル選択メニューから選べます。

制限も明確です。無料ユーザーには通常、1日のメッセージ数、地域、機能の制限があります。上限を超えた場合は、枠が回復するのを待つか、サブスクリプションをアップグレードする必要があります。

Gemini 3.5 Flashを無料で使う方法2：Google AI Studio

単にチャットしたいのではなく、プロンプトを調整したり、パラメータを見たり、構造化出力を試したりしたい場合は、Google AI Studioのほうが適しています。

https://aistudio.google.com/

基本的な流れは次の通りです。

Google AI Studioにログインする。
新しいpromptを作成する。
モデル選択で gemini-3.5-flash を選ぶ。
プロンプトを入力して実行する。

AI Studioの利点は、制御できる範囲が広いことです。温度、システム指示、構造化出力、複数画像入力を調整でき、試したプロンプトをコードやAPI呼び出しとして書き出すこともできます。

開発者にとって、AI Studioは無料の実験台です。ここでプロンプトと入力形式を整えてからAPI連携に進むと、無駄な枠消費を減らせます。

Gemini 3.5 Flashを無料で使う方法3：無料API key

開発者が最も気にするのはAPIです。AI Studioでは、gemini-3.5-flash を呼び出すためのGemini API keyを作成できます。

基本的な流れは次の通りです。

Google AI Studioを開く。
Get API key を探す。
プロジェクトを選ぶか作成する。
API keyを作成する。
keyをローカルの環境変数に保存する。

Pythonの例：

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Gemini 3.5 Flashがどのような用途に向いているか、3文で説明してください。"
)

print(response.text)

Node.jsの例：

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "Gemini 3.5 Flashがどのような用途に向いているか、3文で説明してください。"
});

console.log(response.text);

curl の例：

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"contents":[{"parts":[{"text":"Hello Gemini 3.5 Flash"}]}]}'

公開情報では、AI Studioの無料枠はGemini Flashモデルに一定の1日あたりリクエスト枠を提供することが多いとされています。時期、地域、アカウント状態によって異なり、よくある説明には1日約1,500リクエスト、分あたりリクエスト制限、token制限などがあります。これらの数字を本番計画に固定してはいけません。正式公開前にはGoogle AIの最新の料金と制限ページを確認してください。

Gemini 3.5 Flashを無料で使う方法4：Gemini CLI

コマンドラインが好きなら、Gemini CLIを見てみる価値があります。臨時スクリプト、コードベースの要約、ファイル読み取り、ターミナルでの素早い質問に向いています。

通常のインストール方法は次の通りです。

`1`	`npm install -g @google/gemini-cli`

その後、実行します。

gemini

CLIは個人開発者の日常利用に向いており、本番統合には向いていません。本番環境ではAPI key、サービスアカウント、権限制御、監査可能な呼び出し方式を使うべきです。

Gemini Omniを無料または低いハードルで使う方法：Gemini appとGoogle Flow

Gemini Omniは動画制作と編集に向けたマルチモーダルモデルです。中心的な機能は通常のテキストQ&Aではなく、自然言語で動画を複数回編集し、画像、テキスト、動画、音声などの入力を参照することです。

Google DeepMindのページでは、次の入口が示されています。

Gemini app。
Google Flow。
YouTube Shorts。

ページでは、Google AIのサブスクリプションが必要であり、機能は契約階層や地域によって変わるとも説明されています。そのため、Gemini Omniの「無料利用」は慎重に理解する必要があります。一部の入口では無料ユーザーが一部機能を見たり試したりできる可能性がありますが、完全な動画編集機能にはサブスクリプション、地域提供、段階的ロールアウトが必要な場合があります。

試してみたいだけなら、次の順番がおすすめです。

まずGemini appを開き、Gemini Omniまたは関連する動画編集入口があるか確認する。
次にGoogle Flowを開く：https://flow.google/
ショート動画を作る場合は、YouTube ShortsにOmni関連の編集機能が出ているか確認する。

入口が見えない場合、通常は操作ミスではありません。アカウント、地域、サブスクリプション階層、ロールアウト対象がまだ条件を満たしていないだけのことがあります。

Gemini Omniに向いている使い方

Gemini Omniは通常のチャットより、クリエイター向けです。

次のような使い方を試せます。

動画をアップロードまたは選択し、スタイルを変更する。
動画内の特定の動きをより誇張する。
参照画像を使って、シーン内の物体やキャラクターを置き換える。
複数回に分けてカメラ、動き、環境、スタイルを修正する。
スケッチ、参照画像、音声、動画を組み合わせて新しい出力を作る。

プロンプトは編集者への指示のように書けます。

元の動画の人物と部屋の構造はそのままにして、鏡に触れた後の効果を液体の波紋に変えてください。動きは自然にし、光が急に変わらないようにしてください。

複数回編集する場合、一度に多くの要求を詰め込まないほうが安定します。より安全な進め方は次の通りです。

まず主体の動きを変える。
次にスタイルを変える。
次にカメラ角度を変える。
最後に音、文字、リズムを調整する。

こうすると一貫性を保ちやすく、どの段階で問題が出たかも特定しやすくなります。

無料利用で踏みやすい落とし穴

第一に、無料枠は本番枠ではありません。無料API keyはテスト、個人工具、プロトタイプに向いていますが、安定したサービスを約束する用途には向きません。

第二に、機密データを無料または第三者の入口に送らないことです。未公開コード、顧客情報、契約書、キー、財務表、内部文書は特に注意が必要です。

第三に、データ利用設定を確認することです。無料枠には異なるデータ利用ポリシーがある場合があります。利用前にAI StudioやGoogleアカウントの関連設定を確認してください。

第四に、動画機能は通常、テキスト機能より制限が強くなります。Gemini Omniのような動画編集機能は、サブスクリプション、地域、待ち行列、長さ、解像度、コンテンツ安全ポリシーの影響を受ける可能性があります。

第五に、第三者の「無制限無料API」には注意が必要です。多くのゲートウェイは速度制限、リクエスト転送、ログ記録、不透明な支払い方法を伴います。機密タスクでは使わないほうが安全です。

どの入口を選ぶべきか

一般ユーザーなら：

Gemini 3.5 Flash：Gemini appを使う。
Gemini Omni：まずGemini app、次にGoogle Flowを見る。

クリエイターなら：

Google FlowでOmniの動画ワークフローを試す。
Gemini appで脚本、絵コンテ、プロンプト、素材説明を作る。

開発者なら：

AI Studioでプロンプトをデバッグする。
API keyで gemini-3.5-flash を組み込む。
Gemini CLIで個人用ターミナルワークフローを作る。
本番環境ではVertex AIまたは有料APIを検討する。

企業なら：

無料枠に依存しない。
権限、ログ、監査、データ所在地、コンプライアンス、キー管理を重視する。
動画生成と編集では、ウォーターマーク、コンテンツ審査、著作権フローも追加する。

まとめ

Gemini 3.5 Flashの無料利用経路は比較的わかりやすいです。Gemini app、Google AI Studio、AI Studio API key、Gemini CLIはいずれも低いハードルの入口になります。チャット、文章作成、プログラミング、Agentプロトタイプ、マルチモーダルテストに向いています。

Gemini Omniの重点は動画編集とマルチモーダル制作です。主な入口はGemini app、Google Flow、YouTube Shortsですが、完全な機能はサブスクリプションや地域制限の影響を受けやすいでしょう。クリエイターがまず体験や概念検証を行うには向いていますが、最初から安定した本番サービスとして計画するには向いていません。

最も堅実な戦略は、テキストとコードのタスクをまずGemini 3.5 Flashの無料枠で試し、動画制作はGemini appまたはFlowのGemini Omniで効果を確認し、本当に公開する段階で監査、課金、権限制御ができる正式な構成へ移行することです。

参考：

Gemini Omniとは？GoogleのAI動画マルチターン編集モデルを解説

Wed, 20 May 2026 23:11:58 +0800

Google DeepMindが Gemini Omni のページを公開しました。位置づけは明確です。任意の入力からコンテンツを作るモデルで、現時点では動画を中心にしています。

Nano Bananaが画像生成と編集に寄っているとすれば、Gemini Omniは動画向けのマルチモーダル編集モデルに近い存在です。ユーザーは自然言語で動画を段階的に編集でき、後続の変更は前回の変更結果を土台にしながら、シーン、人物、動き、画面の論理的一貫性を保とうとします。

プロジェクトページ：https://deepmind.google/models/gemini-omni/

解決しようとしている問題

従来の動画編集には、タイムライン、レイヤー、マスク、キーフレーム、カラーグレーディング、音声トラック、そして多くの手作業が必要です。AI動画生成ツールはプロンプトからクリップを生成できますが、よくある問題が二つあります。

一度生成した結果を細かく修正しにくい。
複数回編集すると、人物、シーン、スタイル、動きがぶれやすい。

Gemini Omniが狙っているのはこの二つ目の段階です。単に動画を生成するのではなく、編集者と会話するように、ユーザーが継続して修正を依頼できるようにします。

ページでは、自然で段階的な会話を通じて任意の動画を編集できると説明されています。各編集は前回の結果に基づき、連続性のある統一されたシーンを維持することを目指します。

主な機能

Gemini Omniの機能はいくつかに分けられます。

一つ目は自然言語による動画編集です。ユーザーは動画の美的スタイル、動き、エフェクトの変更を直接依頼できます。たとえば、鏡を液体のように波立たせたり、人物を線画、フェルト人形、透明なホログラム風ワイヤーフレームに変えたり、環境全体を 3D voxel art に変換したりできます。

二つ目は動作の再構成です。手で作った穴を拡大する、玩具に対応する動物の鳴き声を出させる、建物の照明を音楽に合わせて点灯させる、といった形で、動画内で起きること自体を変えられます。

三つ目は参照画像に基づく実写動画の編集です。ユーザーは画像を参照として与え、建物、太陽、飛行物体、その他のオブジェクトを実写の動画シーンに配置するよう依頼できます。

四つ目は複数回の編集で一貫性を保つことです。ページでは、バイオリン奏者を参照画像の環境に移動し、バイオリンを消し、さらにショットを肩越しの角度に変える連続編集の流れが紹介されています。一度きりのプロンプトよりも、実際の制作プロセスに近い使い方です。

五つ目は複数入力の参照です。Gemini Omniは画像、テキスト、動画、音声などの入力を一つの出力に統合でき、スタイル転送、動作転送、キャラクター置換、スケッチから動画への変換などに対応します。

なぜ世界知識を強調するのか

Googleはページの中で、Gemini Omniは単に「映像をリアルにする」だけではなく、Geminiの世界知識、物理的直感、歴史、科学、物語の論理を組み合わせると繰り返し強調しています。

これは重要です。動画モデルが画質だけを追求すると、動きが不自然になったり、物体の関係が混乱したり、文字と映像が同期しなかったりしがちです。Gemini Omniの目標は、見た目だけでなく、ストーリー、物理、意味の面でも一貫した動画にすることです。

ページの例には次のようなものがあります。

ビー玉が連鎖反応のコースを転がる。
claymationでタンパク質の折りたたみを説明する。
stop motion風に海馬の働きを説明する。
文字と画面内の物体を対応させて表示する。
画面上の単語をリズムに合わせて一語ずつ表示する。

これらの例から、Gemini Omniは単なるショート動画向けエフェクトツールではなく、知識表現、物語、映像と音声の生成をまとめようとしていることがわかります。

Veo、Flow、Nano Bananaとの関係

Googleの現在の製品ラインを見ると、Gemini Omniはマルチモーダルな制作と編集機能の入口に近い存在です。

Veo は動画生成モデルそのものに近く、映画的な動画と音声生成を重視します。Google Flow はクリエイター向けのAIクリエイティブスタジオで、ショット、素材、動画プロジェクトを整理する用途に向いています。Nano Banana は画像作成と細部編集に寄っています。Gemini Omniは「任意の入力から一貫した出力へ」というマルチモーダル編集を重視し、とくに動画での自然言語による複数回制御を前面に出しています。

簡単に整理すると、次のようになります。

高品質な動画を生成したいなら、Veoに注目。
制作ワークフローの中で動画プロジェクトを整理したいなら、Google Flowに注目。
画像を編集したいなら、Nano Bananaに注目。
会話形式で動画を修正し、画像、テキスト、動画、音声を参照したいなら、Gemini Omniに注目。

利用入口

ページで挙げられている入口は次の通りです。

Gemini app。
Google Flow。
YouTube Shorts。

ただしページでは、Google AIのサブスクリプションが必要であり、機能は契約プランや地域によって異なるとも説明されています。つまり、すべてのユーザーがすべての地域で完全な機能をすぐに使えるわけではありません。

クリエイターにとっては、より完整な制作ワークスペースに近い Google Flow が特に重要な入口になりそうです。一般ユーザーにとっては、Gemini app と YouTube Shorts のほうが試しやすい入口になるでしょう。

安全性とコンテンツ表示

Gemini Omniのページでは安全プロセスにも触れています。Gemini Omni Flashの開発では、社内の安全性および責任あるAIチームと協力し、自動評価、人間による評価、人間のレッドチーミング、自動レッドチーミング、リリース前の倫理・安全レビューが行われたと説明されています。

コンテンツの透明性については、Gemini app、Google Flow、YouTubeでOmniを使って作成または編集されたコンテンツには、不可視の SynthID デジタルウォーターマークと C2PA Content Credentials が含まれるとされています。ユーザーはGemini appでコンテンツを検証でき、今後はChromeや検索にも拡張される予定です。

これは動画モデルでは特に重要です。動画生成と動画編集がリアルになるほど、出所表示、悪用防止、検証ツールの重要性は高まります。

向いているユーザー

Gemini Omniは次のようなユーザーに向いています。

自然言語で素早く動画を修正したいコンテンツクリエイター。
スケッチ、参照画像、音声、動画素材を組み合わせて完成映像を作りたいデザインチーム。
ショート動画、広告コンセプト、教育向け解説動画、製品ビジュアル案を作る人。
Google FlowでAI動画ワークフローを構築したいクリエイター。
マルチモーダル動画編集の限界を観察したい開発者や研究者。

ただし、すべての場面に向いているわけではありません。本格的な商業映像、ブランドのキービジュアル、映像制作、製品発表動画では、人によるレビュー、著作権確認、事実確認、素材管理が依然として必要です。AIはコンセプト生成や初稿の反復を大きく速めますが、最終確認の代わりにはなりません。

Gemini Omniをどう見るか

Gemini Omniの意味は、AI動画を「一度きりの生成」から「会話しながら修正できる編集」へ進める点にあります。これは単に画質を上げることよりも、実際の制作フローに近い変化です。

複数回編集、一貫性、参照素材の制御、音声と映像の同期、コンテンツ表示が安定すれば、AI動画ツールの使い方は変わります。ユーザーは長いプロンプトを一度書いて結果に賭けるのではなく、監督、編集者、デザイナーのように、シーン、動き、スタイル、物語を段階的に修正していくようになります。

現時点では、実際の提供範囲、価格、地域制限、生成時間、解像度、著作権ポリシー、商用利用ルールを見ていく必要があります。一般的なクリエイターにとって最も実用的な観察点は、Google Flow と Gemini app の中で多段階の動画編集を安定して行えるかどうかです。

参考：

Google DeepMind：Gemini Omni

miHoYo LPM 1.0 解説：AI 動画モデルはゲーム NPC をどう変えるのか

Fri, 08 May 2026 22:27:10 +0800

LPM 1.0 は、また一つの AI 動画生成モデルだと誤解されやすい。デモだけを見ると、一部の text-to-video 製品のような大きなカメラ演出や強烈な視覚インパクトを狙っているわけではない。しかし論文の目的に戻すと、本当に解こうとしているのは「見栄えのよい動画を生成すること」ではなく、「インタラクションの中でデジタルキャラクターに存在感を持たせること」だとわかる。

ここが LPM 1.0 と一般的な動画モデルの最大の違いだ。一般的な動画モデルは画質、カメラの連続性、プロンプト再現に注目する。LPM 1.0 が注目するのはキャラクターの演技である。話しているときは口形、リズム、表情が同期し、聞いているときはうなずき、視線、間、微表情があり、長時間の対話でも同じキャラクターとして安定する必要がある。

動画生成から演技生成へ

LPM は Large Performance Model、つまり大型パフォーマンスモデルを意味する。この名前は重要だ。タスクの境界を「動画」から「演技」へ移しているからである。

実際の会話で相手が自然に感じられるかどうかは、何を言うかだけでは決まらない。多くの場合、聞くこと自体がコミュニケーションになる。適切なタイミングでうなずくか、視線が文脈に合っているか、表情が感情に合わせて少し変化するかが、「このキャラクターは生きている」と感じられるかを左右する。

既存の多くのデジタルヒューマンは、テキスト、音声、口形を人物の見た目に貼り付けているに近い。キャラクターは話せるが、必ずしも聞けるわけではない。台詞を出せても、直前の入力に連続的に反応できるとは限らない。LPM 1.0 の目的は、この受動的な再生をリアルタイムの対話へ変えることだ。

論文が扱う三つの難題

LPM 1.0 の論文は、AI キャラクターパフォーマンスの問題を三角関係として整理している。表現力、リアルタイム性、長時間のアイデンティティ安定性である。細かい表現ができても遅い、応答は速いが動きが硬い、短時間は安定しても長く続くと見た目がずれる。三つを同時に満たすのは難しい。

この問題に対し、LPM 1.0 はより複雑なキャラクター条件入力を使う。モデルに一枚の参照画像だけを与えるのではなく、全体外観、複数視点の身体、複数表情の顔参照を含む多粒度の identity reference を導入する。目的は、横顔、歯、表情の質感、身体比率などをモデルが勝手に補完してしまうのを減らし、長時間生成でも変形しにくくすることだ。

論文では、話す行動と聞く行動も分けている。話す音声は主に口形、話速、頭部や身体のリズムを駆動する。聞く音声は視線、うなずき、姿勢変化、微表情を引き起こす。二つの信号を一つの制御に混ぜると、モデルは誤った対応を学びやすい。LPM 1.0 は speaking と listening を別々にモデル化し、オンラインシステムで一つの対話フローに接続する。

Base LPM と Online LPM

公開論文によると、LPM 1.0 の基盤は 17B パラメータの Diffusion Transformer である。Base LPM は高品質で制御可能、かつ identity-consistent なキャラクター演技動画を学習する。Online LPM は蒸留されたストリーミング生成器で、低遅延かつ長時間の対話を支える。

この分割は重要だ。オフラインモデルは品質を追求できるが、対話シーンではユーザーを長く待たせられない。ユーザーが話し始めたら、キャラクターはすぐに「聞き」始める必要がある。キャラクターが話し始めたら、口形、表情、身体動作も即座についてこなければならない。Online LPM の価値は、複雑な動画生成をリアルタイム対話に近い形へ圧縮する点にある。

したがって LPM 1.0 は、単にクリエイター向けの短尺動画素材ツールではない。対話エージェント、バーチャル配信者、ゲーム NPC のための視覚エンジンに近い。言語モデルが内容を理解して生成し、音声モデルが声を担当し、LPM が画面内のキャラクターを信頼できる形で演じさせる。

ゲームにとっての意味

ゲーム業界に置くと、LPM 1.0 が示すのは、より美しいカットシーンではなく、次世代のインタラクティブキャラクターだ。

従来のゲーム NPC は、事前に書かれたスクリプト、固定アニメーション、限られた分岐に依存している。プレイヤーは会話できるが、反応はほとんど設計済みである。AI 時代の目標はさらに先にある。同じ世界観の中でプレイヤーごとに異なる物語が生まれ、同じキャラクターでも相手に合わせた動作、感情、応答を返せることだ。

これこそ、個別化されたゲーム体験に必要な基盤である。言語モデルは台詞を生成でき、行動システムは目標を決められる。しかし画面上のキャラクターが硬いままでは、プレイヤーはそれが自分を理解していると信じにくい。LPM 1.0 が補おうとしているのは、この視覚と演技の層である。

万能の完成品として見ない

もちろん、LPM 1.0 は今のところ、すぐ大規模商用化できる完成品というより技術ルートとして理解するほうがよい。論文とデモは、リアルタイム、フルデュプレックス、identity-stable なキャラクター動画生成が実用に近づいていることを示している。ただしゲームに本格導入するには、コスト、遅延、端末側展開、コンテンツ安全性、キャラクター権利、マルチプレイヤー場面、エンジン統合などの問題が残る。

現実的な導入は、最初からすべての NPC を置き換えることではないだろう。まずはバーチャル配信者、AI コンパニオン、物語対話、キャラクター型サポート、教育コーチングのような単一キャラクター場面に入る可能性が高い。モデルコストが下がり、遅延がさらに減れば、より複雑なゲームシステムへ進める。

まとめ

LPM 1.0 の価値は、最も派手な動画を生成できるかではない。AI 動画の目標を「画面生成」から「キャラクターの存在感」へ押し出している点にある。

将来のゲームがより個別化され、より動的になり、AI キャラクターに依存するなら、言語、音声、動作、表情、アイデンティティの一貫性は一緒に設計されなければならない。LPM 1.0 はその一つの道筋を示している。デジタルキャラクターが話すだけでなく、聞き、反応し、長い対話でも同じ存在であり続けるための道筋である。

参考リンク：

Pixelle-Video：1つのテーマから短尺動画を生成するオープンソース AI エンジン

Thu, 07 May 2026 20:25:17 +0800

Pixelle-Video は、AIDC-AI が公開している全自動短尺動画生成エンジンです。目標は明快です。ユーザーがテーマを入力すると、動画台本、AI 画像または動画、音声ナレーション、BGM、最終合成までを自動で処理します。

この種のツールは、短尺動画の量産、知識解説、口播コンテンツ、小説解説、歴史・文化系動画、自媒体向け素材実験に向いています。単体の「テキストから動画」モデルではなく、複数の AI 能力をつなげた制作パイプラインです。

自動化できること

Pixelle-Video の標準フローは次のように整理できます。

テーマまたは固定台本を入力する。
大規模言語モデルでナレーション原稿を生成する。
シーン設計に沿って画像または動画素材を生成する。
TTS で音声ナレーションを生成する。
BGM を追加する。
動画テンプレートを適用して最終動画を合成する。

README では「台本生成 → 画像計画 → フレームごとの処理 → 動画合成」という流れとして説明されています。モジュール化されているため、各ステップのモデルやパラメータを差し替えたり、独自ワークフローに変更したりしやすい構成です。

主な機能

プロジェクトが対応している機能はかなり幅広いです。

AI 台本生成：テーマから動画ナレーションを自動生成。
AI 画像生成：各セリフや各シーンに対応するイラストを生成。
AI 動画生成：WAN 2.1 などの動画生成モデルに対応。
TTS 音声：Edge-TTS、Index-TTS などをサポート。
BGM：内蔵 BGM またはカスタム音楽を利用可能。
複数サイズ出力：縦動画、横動画など複数の比率に対応。
複数モデル：GPT、Qwen、DeepSeek、Ollama などに対応。
ComfyUI ワークフロー：標準ワークフローを使うことも、画像生成、TTS、動画生成などを差し替えることも可能。

最近の更新では、モーション転写、デジタルヒューマン口播、画像から動画、多言語 TTS ボイス、RunningHub 対応、Windows 一体型パッケージなども追加されています。単なるスクリプトではなく、より完成度の高い制作ツールへ向かっていることが分かります。

インストールと起動

Windows ユーザーは、まず公式の一体型パッケージを見るのがよいでしょう。Python、uv、ffmpeg を手動で準備せずに使えるようにするためのもので、展開後に start.bat を実行し、ブラウザで Web UI を開いて API と画像生成サービスを設定します。

ソースコードから起動する場合、README では次の基本手順が示されています。

1
2
3

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

ソースからの利用は macOS、Linux ユーザーや、テンプレート、ワークフロー、サービス設定を変更したい人に向いています。主な前提は uv と ffmpeg です。

設定の要点

初回利用時に重要なのは、すぐに「生成」を押すことではなく、外部能力を正しく接続することです。

LLM 設定は台本品質を左右します。Qwen、GPT、DeepSeek、Ollama などを選び、API Key、Base URL、モデル名を入力します。コストを抑えたいならローカルの Ollama が候補になります。安定した結果を優先するなら、クラウドモデルの方が扱いやすいことが多いです。

画像・動画生成設定は画面品質を決めます。プロジェクトはローカル ComfyUI と RunningHub に対応しています。ComfyUI に慣れているユーザーなら、自分のワークフローを workflows/ ディレクトリに置き、標準の画像生成、動画生成、TTS フローを差し替えられます。

テンプレート設定は最終動画の見た目を決めます。プロジェクトは templates/ ディレクトリで動画テンプレートを管理し、静的テンプレート、画像テンプレート、動画テンプレートを命名規則で分けています。クリエイターにとっては、素材だけでなく、そのままプレビューしてダウンロードできる動画まで出せる点が実用的です。

向いている人

Pixelle-Video は次のような人に向いています。

短尺動画クリエイター：企画を素早く投稿可能な下書き動画にしたい人。
AIGC ツールユーザー：LLM、ComfyUI、TTS、動画合成をつなげたい人。
開発者・自動化ユーザー：オープンソースを基にテンプレートやワークフローを改造し、自分の素材やモデルを接続したい人。

高品質な一本ものの動画を作るだけなら、手作業の編集を完全に置き換えるとは限りません。ただし、同じ構造の解説動画、口播動画、科普系コンテンツを大量に作りたいなら、このパイプライン型の考え方はかなり有用です。

注意点

この種のツールの上限は複数の工程で決まります。台本モデルが弱いと内容が薄くなり、画像モデルが弱いと画面が散らかり、TTS が不自然だと動画が粗く感じられます。テンプレートが合わなければ、最終的な見栄えも弱くなります。

そのため、まずは「60秒の縦型知識解説動画」のような固定シーンから調整するのがおすすめです。LLM、画風、TTS 音色、BGM、テンプレートを固めてから、ほかのテーマへ広げる方が安定します。

また、ローカル無料構成にも対応していますが、通常は GPU、ComfyUI 設定、モデルファイルが必要です。ローカル推論環境がない場合は、クラウド LLM と RunningHub を組み合わせると導入は楽になりますが、利用コストには注意が必要です。

短評

Pixelle-Video の見どころは「一文から動画を生成できる」ことだけではありません。短尺動画制作を、台本、映像、音声、音楽、テンプレート、合成という交換可能なモジュールに分解している点にあります。一般ユーザーにとっては低ハードルの AI 動画ツールであり、開発者にとっては改造しやすい短尺動画自動化フレームワークです。

AI 短尺動画パイプラインを研究している人、あるいは ComfyUI、TTS、LLM、テンプレート合成を一つの製品としてつなげたい人なら、Pixelle-Video は試して分解してみる価値があります。