Qwythos-9B-Claude-Mythos-5-1M は、Empero AI が Hugging Face で公開した 9B 推論モデルです。
モデルページ:empero-ai/Qwythos-9B-Claude-Mythos-5-1M
目立つポイントはかなり明確です。
Qwen3.5-9Bベース;- 9B パラメータ規模;
- Apache-2.0 ライセンス;
- デフォルトで 1,048,576 token context;
- Qwen3.5 形式の function calling をサポート;
- 長文推論、ツール利用、agentic な用途向け;
- モデルカードに vLLM、SGLang、Transformers の使用例がある。
小さめで、長文コンテキストを扱え、ツール接続もできる open-weight モデルを探しているなら、Qwythos-9B は見る価値があります。
まず向いている用途
Qwythos-9B は普通のチャットモデルとは少し違います。
向いている場面は次の通りです。
- 長い文書の分析;
- 複数ファイルのコードベース読解;
- 長い agent タスク;
- ツール呼び出し付きの Q&A;
- Python executor や検索ツールで検証するタスク;
- 研究、推論、数学、コード、技術文書処理;
- 1M context のローカルまたはプライベートデプロイ検証。
あまり向いていない場面:
- 軽いチャットだけしたい;
- GPU リソースがない;
<think>推論ブロックを扱いたくない;- そのまま使える一般向けチャット体験が欲しい;
- アプリケーション側の安全制御がない。
モデルカードでは reasoning model と明記されています。回答には先に <think> 推論ブロックが出て、その後に最終回答が出ます。ユーザー向け製品に接続する場合は、この部分を自分で処理または非表示にする必要があります。
モデルの基本情報
Hugging Face のモデルカードによると、基本情報は次の通りです。
| 項目 | 情報 |
|---|---|
| モデル名 | empero-ai/Qwythos-9B-Claude-Mythos-5-1M |
| 公開元 | Empero AI |
| ベース | Qwen/Qwen3.5-9B |
| 規模 | 9B |
| 形式 | Safetensors |
| ライセンス | Apache-2.0 |
| コンテキスト | 1,048,576 tokens |
| 特徴 | reasoning、function calling、long-context、agentic |
単なる prompt 包装ではなく、full-parameter fine-tune です。モデルカードでは、訓練データに 5 億 token 以上の Claude Mythos / Claude Fable traces と、Empero AI の内部ツール rethink で生成した chain-of-thought データが含まれると説明されています。
この種のモデルで見るべき点は「チャットできるか」だけではありません。複雑なコンテキストで推論を続け、ツールを呼び出し、答えを修正できるかが重要です。
1M context の意味
Qwythos-9B のモデルカードで最も目を引く機能は、YaRN rope scaling によってコンテキストを次まで拡張している点です。
|
|
およそ 1M token です。
設定には次のようなパラメータがあります。
|
|
これは次の場面で魅力的です。
- 大きなコードベースを直接コンテキストに入れる;
- 10〜20本の論文とメモを処理する;
- 長時間 agent タスクでツール出力を保持する;
- 複数文書を横断して分析する;
- 長い traceback、ログ、API レスポンスを継続的に推論する。
ただし現実的に考える必要があります。1M context は、どんな消費者向け GPU でも快適に全量を走らせられる、という意味ではありません。
モデルカードでも、完全な 1M window は tensor parallel のマルチ GPU や aggressive KV-cache offload に向くと説明されています。単一の高性能 GPU では 256k〜512k 程度が現実的な場合もあり、後端、量子化、KV cache、VRAM に左右されます。
vLLM でデプロイする
OpenAI-compatible API に慣れているなら、vLLM はかなり直接的な選択肢です。
インストール:
|
|
モデル起動:
|
|
1M 近いコンテキストを明示したい場合は、モデルカードの例に従います。
|
|
API 呼び出し:
|
|
VRAM 不足で起動に失敗する場合、最初から 1M にしないでください。32k、64k、128k など小さめの --max-model-len で確認し、徐々に増やす方が安全です。
SGLang でデプロイする
SGLang もモデルカードに記載されています。
インストール:
|
|
起動:
|
|
長いコンテキストを試す場合:
|
|
呼び出し:
|
|
Docker 例もモデルカードにあります。
|
|
デプロイ前に、gated resource や private cache へのアクセスが必要なら HF_TOKEN を設定しておきます。
Transformers で読み込む
モデルカードの text-only 推論例では AutoModelForImageTextToText と AutoTokenizer を使っています。
構造はおおむね次の通りです。
|
|
重要な点は 2 つです。
- 回答に
<think>...</think>が含まれる; max_new_tokensを十分に取ることが推奨されており、モデルカードでは 16384 が示されています。
製品出力に使う場合は、通常は後処理で <think> 部分を取り除き、最終回答だけを表示します。
推奨サンプリング設定
モデルカードの推奨パラメータは次の通りです。
|
|
最初から greedy decoding を使ったり、temperature を低くしすぎたりしない方がよいです。
モデルカードでは、greedy や非常に低い温度(T <= 0.3)では、この種の reasoning model が繰り返しループに入る可能性があるとされています。まずは推奨設定で走らせる方が安定します。
ツール呼び出しの理解
Qwythos-9B は Qwen3.5 形式の function calling をサポートします。
モデルカードでは、tools=[...] を chat template に渡すことで、Qwen3.5 仕様の <tool_call> block を出力できると説明されています。
簡略化したツール定義は次のようになります。
|
|
モデルは <tool_call> のような内容を生成します。アプリケーション側でそれを解析し、ツールを実行し、結果をモデルに戻す必要があります。
つまり、Qwythos-9B が自分で本当にネットに接続するわけではありません。
ツール実行環境は利用者側で用意します。
ハードウェアへの現実的な期待
9B パラメータは小さく見えますが、1M context は別の次元の負荷です。
デプロイ時は次を分けて見ます。
- モデル重みの VRAM;
- KV cache;
- コンテキスト長;
- batch size;
- 並行数;
- 量子化の有無;
- KV cache offload の有無;
- vLLM、SGLang、Transformers のどれを使うか。
モデル能力を試すだけなら、小さめのコンテキストから始めます。
|
|
安定してから長いコンテキストを試します。
1M context は、毎回必ず使うものではありません。コードベース分析、複数論文の要約、長い agent 軌跡のような場面で、必要に応じて段階的に伸ばす方が現実的です。
制限と安全境界
モデルカードには、注意すべき制限があります。
- reasoning model なので
<think>を出力する; - 低温度や greedy decoding では繰り返しループが起きる可能性がある;
- 具体的な識別子、CVE、薬品ラベル、正確な数値などはツールや検索で検証が必要;
- uncensored で、複雑な技術問題を簡単には拒否しない;
- 視覚能力はベースから継承しているが、この fine-tune は text-only で、視覚動作は主な訓練・評価対象ではない。
ユーザー向けアプリで使うなら、次を追加するのがおすすめです。
- 出力フィルタ;
- 安全ポリシー;
- ツール呼び出しの許可リスト;
- レート制限;
- ログ監査;
- 高リスク領域での人間レビュー;
- 検索またはツールによる検証。
特にサイバーセキュリティ、医療、薬理、金融、法律の領域では、モデル回答を最終事実として扱ってはいけません。推論補助には使えますが、最終判断は信頼できる情報源、ツール結果、人間の確認に戻すべきです。
テスト方法
初めて Qwythos-9B を試すなら、いきなり超長コンテキストから始めない方がよいです。
おすすめの順序:
- Transformers または vLLM で短い Q&A を通す;
- 推奨サンプリング設定を使う;
<think>と最終回答の形式を見る;- 少し長めの文書要約を試す;
- Python executor を接続する;
- 最後に web_search や RAG を試す;
- 安定してからコンテキストを伸ばす。
テスト prompt は次のようなものから始められます。
|
|
または:
|
|
このような問題は、reasoning model と tool-use の価値を見やすくします。
一言まとめ
Qwythos-9B-Claude-Mythos-5-1M は、エンジニアリングと研究向けの 9B 推論モデルです。
見どころは単なるパラメータ数ではなく、次の組み合わせです。
|
|
長文コンテキストでのコードベース分析、複数文書研究、ツール検証付き agent ワークフローを試したいなら、試す価値があります。ただし 1M context に引っ張られすぎず、小さいコンテキストで安定させてから、VRAM、KV cache、後端能力に応じて段階的に広げるのが安全です。