LTX 2.3 on KnightLiブログ

Sulphur 2 はなぜ話題なのか？オープンな AI 動画生成、無審査論争、本地デプロイの壁

Mon, 18 May 2026 00:27:37 +0800

Sulphur 2 は最近、AI 動画生成コミュニティで多くの議論を呼んでいます。

Sora、Runway、Pika のようなオンライン商用製品ではなく、ゼロから訓練された新しいアーキテクチャでもありません。より正確には、Sulphur 2 は LTX 2.3 を微調整したオープンウェイトの動画生成モデルであり、本地生成、制御可能なワークフロー、より開かれたプロンプト応答を意識したものです。

注目されている理由は、単に「動画を生成できる」からではありません。AI 動画モデルの内容境界はプラットフォームが一律に決めるべきなのか、それとも本地ユーザーが合法範囲で責任を負うべきなのか、という古い問題を再び前面に出したからです。

Sulphur 2 と LTX 2.3 の関係

Sulphur 2 の土台は、Lightricks が公開した LTX 2.3 です。

LTX 2.3 自体は比較的完成度の高い動画生成モデル系列で、text-to-video、image-to-video、可変フレームレート、開始フレーム・終了フレーム制御、音声同期などに対応します。ComfyUI などの本地ワークフローにも接続しやすいエコシステムがあります。

Sulphur 2 はこの基礎構造を変えたわけではありません。LTX 2.3 の上で、より特定の方向に微調整されています。元記事によると、開発チームは 12.5 万本以上の動画サンプルを使って訓練し、BF16、FP8 mixed、Distill LoRA などの複数バージョンを提供しており、ユーザーはハードウェア条件に合わせて選べます。

つまり Sulphur 2 は、完全に独立した新しいプラットフォームというより、LTX 2.3 エコシステム内の派生モデルパッケージに近い存在です。

本地デプロイ、VRAM 要件、ComfyUI ワークフローに関心がある場合は、以前のデプロイ記録も参考になります：Sulphur 2 は 8GB VRAM で動く？LTX 2.3 動画モデルの本地デプロイ記録。

なぜ「無審査」と呼ばれるのか

Sulphur 2 で最も議論を呼ぶラベルは uncensored、つまり「無審査」です。

この言葉は誤解されやすいものです。「何でも生成できる」という意味ではありません。違法コンテンツ、権利侵害、嫌がらせ、なりすまし、同意のない画像生成に使えるという意味でもありません。より正確には、多くの商用動画生成プラットフォームと比べて、敏感だが合法な題材を理由に即座に拒否することが少ない、という意味です。

商用プラットフォームは通常、保守的な方針を取ります。法律、ブランド、コンプライアンス上のリスクを下げるため、グレーゾーンのプロンプトをまとめてブロックすることがあります。これは悪用リスクを下げますが、通常の創作場面にも影響します。

医学教育。
歴史題材。
ニュース再現。
芸術実験。
ニッチなスタイル制作。
本格的なドキュメンタリー素材の構想。

Sulphur 2 の考え方は、より多くの判断を本地ユーザーに戻しつつ、違法コンテンツに対する最低限のフィルタリングを残すことです。この方向性は創作の自由度を高めますが、同時により高い責任も求めます。

技術的には「制限を外しただけ」ではない

Sulphur 2 を「審査層を取り除いた LTX 2.3」とだけ説明するのは不十分です。

公開情報を見る限り、Sulphur 2 は LTX 2.3 を中心としたモデルウェイトと関連ツールを提供しています。

VRAM に余裕のあるハードウェア向けの BF16 フル精度版。
より低い VRAM で使いやすくする FP8 mixed 版。
速度と品質のバランスを取る Distill LoRA 版。
text-to-video と image-to-video を試しやすい ComfyUI ワークフロー。
短い説明を動画生成向きのプロンプトに広げる Prompt Enhancer。

動画生成は画像生成とは違います。動画には主体とスタイルだけでなく、カメラ移動、人物の動き、時間的連続性、フレーム間の一貫性、ショットサイズ、リズム制御も含まれます。プロンプトが短すぎると、モデルは不安定な細部を補いがちです。

そのため Prompt Enhancer には意味があります。ユーザーが簡単なアイデアを入力し、小さなモデルがそれを動画モデルに適した説明へ広げ、その後 Sulphur 2 ワークフローで生成します。

実際の体験：より従順だが万能ではない

コミュニティの反応を見ると、Sulphur 2 の分かりやすい特徴は、プロンプトにより従いやすいことです。

制限が少ないため、合法的な題材で突然拒否したり、品質を下げたり、ユーザー意図を回避したりしにくい傾向があります。これは、特に本地制作、実験映像、コンセプト短編、ニッチな題材など、内容を正確に制御したい人にとって魅力的です。

ただし、動画生成の最終解ではありません。

現在のオープン動画モデルには、依然として次のような問題があります。

人体の動きが不自然。
手足や手が変形しやすい。
長いショットの一貫性が弱い。
複数主体の相互作用が混乱しやすい。
複雑なシーン理解が字面に寄りやすい。
プロンプトには合うが、美感や編集感が弱い。

これらは Sulphur 2 だけの問題ではなく、現在の AI 動画生成モデル全般に共通する課題です。Sulphur 2 はプロンプト追従性の一部を改善できますが、動画生成そのものの技術的難しさを消すわけではありません。

ハードウェア要件はまだ高い

Sulphur 2 はオープンモデルですが、オープンだからといって普通の PC で気軽に動くわけではありません。

良い結果を得るには、やはり比較的強い GPU が必要です。元記事では、FP8 版は VRAM 要件を下げるものの、安定して使うには通常それなりの VRAM が必要だとされています。BF16 版はさらにハードウェア要件が高く、ハイエンド GPU やクラウド GPU に向いています。

つまり Sulphur 2 の「大衆化」は、ワンクリック Web ツールのような大衆化ではなく、オープンソースコミュニティにおける大衆化です。

ウェイトをダウンロードできる。
ワークフローを変更できる。
ユーザーが本地で実行できる。
開発者が追加微調整できる。
コミュニティがパラメータやノード設定を共有できる。

下げているのは制御権の壁であり、必ずしもハードウェアの壁ではありません。

最大の争点：開放性と安全性をどう両立するか

Sulphur 2 の議論の本質は、特定モデルのパラメータが良いかどうかではありません。オープンな AI 動画生成をどう統治するかという問題です。

支持者は、オープンモデルがユーザーに代わって過度な判断をすべきではないと考えます。内容が合法である限り、ユーザーは本地環境で芸術、教育、研究、創作の境界を探ることができるべきだという立場です。

一方で批判者は、動画は画像より現実世界への被害を起こしやすいと懸念します。より開かれたモデルは、偽造、嫌がらせ、権利侵害、誤情報拡散、その他の悪用に使われる可能性があります。開発者が違法コンテンツのフィルタを残していても、二次改変や悪意ある利用を完全に防ぐことは難しいでしょう。

どちらの見方も簡単には退けられません。

オープンモデルには自由が必要ですが、責任も必要です。現実的な方向は、モデルを完全に封じることでも、すべてを放任することでもなく、より明確なコミュニティ規範、モデルカード、利用制限、来歴追跡ツール、通報メカニズムを整えることです。

どんな人が注目すべきか

Sulphur 2 は次のようなユーザーに向いています。

すでに ComfyUI や本地動画生成ワークフローに慣れている人。
LTX 2.3 派生モデルの挙動を研究したい開発者。
より高いプロンプト追従性を必要とするクリエイター。
本地環境で制御可能な実験をしたいチーム。
微調整、LoRA、ワークフロー最適化を行いたいモデルユーザー。

SNS向けの短い動画をすばやく作りたいだけなら、オンライン製品のほうが今でも楽です。Sulphur 2 の価値は「ワンクリックで完成動画」ではなく、試行錯誤する人により多くの制御権を渡すことにあります。

まとめ

Sulphur 2 の意味は、単に AI 動画生成モデルが一つ増えたことではありません。

商用プラットフォームの保守的な方針に対する、オープン動画生成コミュニティからの一つの応答に近いものです。モデルが強力になるほど、内容境界は誰が定義すべきなのでしょうか。

技術的には、LTX 2.3 をベースにし、複数の精度版、LoRA、ComfyUI ワークフロー、Prompt Enhancer を提供しており、本地生成と追加開発に向いています。

エコシステムの観点では、動画生成の開放性は大きな創作自由と高い悪用リスクを同時にもたらすことを示しています。今後オープンな AI 動画モデルが健全に発展できるかは、技術能力、コミュニティ規範、ユーザー責任が一緒に追いつけるかにかかっています。

参考資料

Sulphur 2 は 8GB VRAM で動くのか？LTX 2.3 動画モデルのローカル導入メモ

Tue, 12 May 2026 22:12:45 +0800

SulphurAI が Hugging Face で Sulphur-2-base を公開しました。モデルカードによると、Sulphur 2 は LTX 2.3 をベースにした動画生成モデルで、uncensored video generation model と位置づけられています。text-to-video と image-to-video をネイティブにサポートし、LTX 2.3 の他の形式とも互換性があります。

モデルページ：https://huggingface.co/SulphurAI/Sulphur-2-base

Sulphur 2 とは

Sulphur 2 は汎用チャットモデルではなく、動画生成ワークフローのためのモデル重みと関連ツールを提供するものです。モデルカードの要点は次のとおりです。

LTX 2.3 ベース。
text-to-video と image-to-video をサポート。
プロンプトを改善する prompt enhancer を提供。
Hugging Face ページには Diffusers、llama.cpp、Ollama、LM Studio、Jan などの入口がある。
モデルファイルには GGUF 関連の内容が含まれ、一部のローカルツールで読み込みやすい。

つまり、一般ユーザー向けのワンクリック Web 製品というより、動画生成を試すユーザーやワークフロー作者向けのモデル公開です。

Sulphur 2 と LTX 2.3 の関係

Sulphur 2 を理解するには、まず LTX 2.3 のエコシステムの中で見るのが分かりやすいです。

LTX 2.3 は基盤となる動画生成モデルの系列であり、対応する入力形式、モデルコンポーネント、ワークフロー構造を決めます。Sulphur 2 はその上に公開された派生モデルで、text-to-video、image-to-video、関連ワークフローをまとめることに重点があります。

そのため Sulphur 2 は完全に独立した新ツールでも、通常のチャットモデルでもありません。LTX 2.3 エコシステム内のモデルパッケージに近く、実際に動画を生成するには、適切なフロントエンド、ノード、重みバージョン、パラメータを選ぶ必要があります。

Web 生成ツールより導入のハードルが高いのもそのためです。Web ツールはモデル、パラメータ、VRAM 調整、失敗時の再試行をバックエンドに隠しますが、ローカル導入ではそれらを自分で扱う必要があります。

注目する理由

LTX 系列は効率的な動画生成で注目されています。Sulphur 2 が LTX 2.3 をベースにしているため、既存の LTX ワークフローに組み込みやすい可能性があります。ComfyUI、Diffusers、ローカル推論ツールのユーザーにとって、この種のモデルの価値は主に制御しやすさと改造しやすさにあります。

もう一つの見どころは prompt enhancer です。動画生成はプロンプトに非常に敏感で、同じ被写体、カメラ、動作、スタイル、品質指定でも、書き方が違うだけで結果が大きく変わります。Sulphur 2 がプロンプト強化ツールを含めているのは、ユーザーが重みをダウンロードするだけでなく、普通の説明をモデルに向いたプロンプトへ安定して変換できるようにする意図があるからでしょう。

モデルカードの使用上の提案

公式モデルカードでは、最初は fp8mixed や bf16 などの dev 版をダウンロードし、提供されている distill lora と組み合わせることが推奨されています。また、LoRA を使う場合は完全モデルの重複部分を同時に読み込まないよう注意されています。ワークフロー内で同じ能力を二重に重ねてしまう可能性があるためです。

prompt enhancer はローカルツール寄りの使い方です。モデルカードでは、LM Studio のモデルディレクトリに Sulphur/promptenhancer という構造を作り、gguf ファイルと mmproj ファイルを置いて強化器を読み込む方法が示されています。system prompt は不要で、強化したいテキストをそのまま送信できます。画像も添付できます。

ローカル実行の入口

Hugging Face ページには一般的なローカル実行の入口がいくつか載っています。たとえば llama.cpp では、モデルリポジトリからローカルサーバーを起動できます。

`1`	`llama-server -hf SulphurAI/Sulphur-2-base:BF16`

ターミナルから直接実行することもできます。

`1`	`llama-cli -hf SulphurAI/Sulphur-2-base:BF16`

Ollama の入口は次のとおりです。

`1`	`ollama run hf.co/SulphurAI/Sulphur-2-base:BF16`

これらのコマンドは Hugging Face が自動生成したローカル読み込み例に近いものです。実際に問題なく動くかどうかは、ローカルの VRAM、モデルファイルのバージョン、量子化形式、ツール互換性に左右されます。動画生成モデルはテキスト専用モデルより多くのリソースを使うことが多いので、最初はモデルカード推奨のバージョンとワークフローに従い、複数ソースの重みを混ぜない方が安全です。

推奨テスト環境：ComfyUI / Diffusers / GGUF の選び方

最速で結果を見たいなら、まずコミュニティが整理した ComfyUI ワークフローを探すのがよいです。ComfyUI は視覚的に扱いやすく、モデル、LoRA、サンプラー、解像度、フレーム数、後処理ノードを同じグラフ上で確認できるため、動画生成のデバッグに向いています。

Python に慣れている場合や、Sulphur 2 を自分のスクリプトに組み込みたい場合は Diffusers が向いています。再現性と自動化に強く、パラメータの一括テストや、設定ごとの VRAM 使用量・生成時間の記録に便利です。

GGUF、llama.cpp、Ollama、LM Studio は prompt enhancer やテキスト側コンポーネントに向いています。GGUF があるからといって、動画生成パイプライン全体を担えるとは限りません。動画モデルには視覚モデル、VAE、サンプリングフロー、フレーム生成コンポーネントが関わることが多く、GGUF はローカル読み込みと軽量化エコシステムの一部です。

簡単にまとめると：

初心者はまず ComfyUI ワークフローを探す。
スクリプトユーザーは Diffusers で再現と一括テストを行う。
prompt enhancer やテキスト強化には GGUF / LM Studio / Ollama を見る。
迷ったらモデルカード推奨の dev 版と LoRA の組み合わせを優先する。

8GB VRAM で動くのか？バージョンとワークフロー次第

Sulphur 2 が 8GB VRAM で動くかどうかは、モデル名だけでは判断できません。具体的なバージョン、量子化方式、解像度、フレーム数、バッチサイズ、ワークフローに依存します。

一般に、動画生成は画像生成より VRAM を多く使います。一枚の画像だけでなく、複数フレーム、時間的一貫性、動画関連の中間状態を扱うためです。モデル自体に軽量版があっても、LoRA、高解像度、長いフレーム数、追加の後処理ノードを重ねると、8GB はすぐ不足する可能性があります。

8GB VRAM しかない場合は、次の方向で負荷を下げます。

fp8mixed、量子化版、またはコミュニティの低 VRAM ワークフローを優先する。
解像度を下げ、小さいサイズでまずパイプラインが通るか確認する。
フレーム数を減らし、最初から長い動画を生成しない。
batch size を 1 にする。
不要な強化ノードや後処理ノードを一時的に切る。
CPU offload、低 VRAM モード、フレームワークのメモリ最適化を使う。

したがって「8GB VRAM でも動く」という表現をより正確に言うなら、低メモリ版、低解像度、短いフレーム数、簡素なワークフローであれば動く可能性がある、という程度です。高解像度、長尺動画、複雑なワークフローを最初から期待するのは現実的ではありません。

prompt enhancer の使い方

Sulphur 2 のモデルカードでは prompt enhancer が特に言及されています。これは動画を生成するものではなく、普通のプロンプトをモデルが理解しやすいプロンプトに書き換えるためのものです。

動画プロンプトでは、被写体、動作、カメラ、シーン、光、スタイル、品質を同時に説明する必要があります。短い説明だけだと、モデルが重要な点を拾えないことがあります。prompt enhancer は簡単な説明をより完全な動画生成プロンプトへ拡張し、後続の生成を安定させるための補助になります。

モデルカードの流れでは、LM Studio のモデルディレクトリ内に Sulphur/promptenhancer ディレクトリを作り、対応する gguf と mmproj ファイルを置いて強化器を読み込みます。使用時に system prompt は不要で、強化したいテキストをそのまま送ります。画像を添付することもできます。

これはプロンプトの前処理ツールと考えると分かりやすいです。

`1`	`普通の説明 -> prompt enhancer -> より完全な動画生成プロンプト -> Sulphur 2 ワークフロー`

モデルが動くかどうかを試す段階では、prompt enhancer は最優先ではありません。まずメインのワークフローを通し、その後でプロンプト改善に使う方が問題の切り分けがしやすくなります。

ローカル導入でよくある失敗原因

Sulphur 2 のようなモデルのローカル導入が失敗する原因は一つとは限りません。よくある落とし穴は次のとおりです。

モデルバージョンとワークフローが合っていない。たとえばワークフローが dev 版を要求しているのに別の重みを使っている。
LoRA と完全モデルの重複部分を同時に読み込み、結果がおかしくなったり VRAM 使用量が増えたりする。
VRAM 不足。特に高解像度、長いフレーム数、複雑なノード構成で起きやすい。
ComfyUI ノード、Diffusers、Transformers、Accelerate などのバージョンが古く互換性がない。
VAE、テキストエンコーダー、mmproj、prompt enhancer などの付属ファイルが足りない。
ファイルパスやディレクトリ構造がツールの要求と合っていない。
Hugging Face ページのコマンドだけをコピーし、それが動画生成のメインフローなのかテキスト側コンポーネントなのか確認していない。

切り分けは順番が大事です。まずモデルファイルが揃っているか確認し、次にワークフローが要求するバージョンを確認します。その後、解像度とフレーム数を下げ、最後に LoRA、prompt enhancer、後処理ノードを少しずつ追加します。一度に変える変数は一つだけにするのが、問題を見つける近道です。

試すのに向いている人

Sulphur 2 は次のようなユーザーに向いています。

すでに LTX、ComfyUI、Diffusers、ローカル動画生成ワークフローを使っている。
text-to-video や image-to-video を試したく、モデルファイルを手動で設定できる。
uncensored 動画生成モデルが必要で、その利用境界を理解している。
prompt enhancer が動画プロンプトをどう改善するか研究したい。
十分な VRAM がある、または量子化版やローカル推論ツールを試す意思がある。

短い動画を手早く作りたいだけなら、オンライン製品の方が楽です。Sulphur 2 はモデル、ノード、LoRA、プロンプト、ローカル環境を調整することを楽しめる人向けです。

使用時の注意点

第一に、モデルカードはまだ更新中です。作者は README により完全な設定説明や訓練方法を追記すると述べているため、具体的なワークフローは最新のモデルカードとファイル一覧を基準にするべきです。

第二に、Hugging Face ページの一つのコマンドだけを見て、すぐ動くと判断しないことです。動画生成にはメインモデル、VAE、LoRA、prompt enhancer、サンプリングパラメータ、解像度、フレーム数、VRAM 使用量が関わります。どれか一つが合わないだけで失敗します。

第三に、uncensored モデルだからといって無制限に使えるわけではありません。生成内容は利用するプラットフォーム、コミュニティ、法律のルールに従う必要があります。実在人物、著作権キャラクター、未成年、暴力、プライバシーに関わる内容では特に注意が必要です。

まとめ

Sulphur 2 の位置づけは明確です。これはチャットモデルではなく、LTX 2.3 動画生成エコシステム向けのモデル公開です。見どころは text-to-video と image-to-video に対応し、prompt enhancer、ローカルツール入口、推奨ワークフローをまとめている点にあります。

一般ユーザーには少し敷居が高いですが、ローカル動画生成を試すユーザーにとってはテスト候補に入れる価値があります。実際の体験は、ワークフロー、VRAM 構成、プロンプト品質、そして今後 README やコミュニティ例がどれだけ整うかで決まります。

参考

Hugging Face モデルページ：https://huggingface.co/SulphurAI/Sulphur-2-base
FreeDidi 参考ページ：https://www.freedidi.com/24142.html