Harness on KnightLiブログ

Ralph とマルチエージェント協調：AI を長時間安定して働かせるには

Mon, 27 Apr 2026 08:19:02 +0800

最近 coding agent を使っていると、すぐにひとつの現実的な問題にぶつかります。AI は確かに仕事をしてくれる。でも、どうすれば何時間も動かし続けても途中で脱線せず、要件を忘れず、同じ作業をやり直さずに済むのか。

Ralph やマルチエージェント協調をめぐる議論で本当に重要なのも、まさにこの点です。単にどのモデルが強いかを比べる話ではありません。より実用的な問いは、長いタスクでも AI が安定して動けるように、どうワークフローを設計するか です。

この問題を分解すると、よく出てくるルートは大きく 2 つあります。

Ralph 方式：新しいセッションを繰り返し起動し、ファイルシステムで文脈をつなぐ
マルチエージェント方式：リード Agent が調整し、子 Agent が分担して実行する

もっと平たく言えば、問われているのは「どのモデルが強いか」ではなく、「どう AI を組織して、継続的に成果を出す小さなチームのように動かすか」です。

01 なぜ長時間タスクは崩れやすいのか

短いタスクでは、多くの問題は表に出ません。指示を 1 つ出し、モデルが数ファイルを読み、少しコードを書き換えれば終わります。

ところがタスクが長くなると、問題が一気に表面化します。

会話が伸び続けてコンテキストが膨らむ
初期の要件が新しい情報に押し流される
ひとつの Agent が設計、実装、テストまで全部抱える
明確な受け入れ確認がないと、「終わった」と「終わったと言っているだけ」が混ざる

そのため、長時間 AI を動かすときに本当に問われるのは単発の出力性能ではなく、タスク分割、状態の受け渡し、役割分担、フィードバックループ です。

02 Ralph 方式：長いタスクを短いラウンドに分ける

Ralph の考え方は、まず「コンテキストがどんどん汚れていく」問題を解くのに向いています。

やっていることはシンプルです。

ループで新しい agent セッションを何度も起動する
各ラウンドでは十分小さなタスクを 1 つだけ扱う
ラウンドをまたぐ状態は会話ではなくファイルに置く

利点は明快です。毎回 fresh context から始まるので、1 ラウンドごとの集中が保ちやすく、過去の履歴に引きずられにくくなります。

Ralph 系のプロジェクトを見たことがあるなら、構造はかなり一貫しています。

現在のタスクは構造化ファイルに書く
途中の学びは進捗ファイルに残す
コードの変化は git 履歴に残す

つまり Ralph は、1 つの Agent に「全部を永遠に覚えさせる」ことを目指していません。記憶を意図的に外へ逃がし、セッションそのものを軽く保とうとします。

この種の方式は、特に次のような条件で相性がいいです。

作業がすでに小さな story に分けられている
各 story が 1 つの context window に収まる
プロジェクトに tests、typecheck、その他のチェックがある

これは AI を一歩ずつ安定して前に進めるにはどうするか という問題への答えです。

03 マルチエージェント方式：1 人では抱えきれない仕事を分担する

もうひとつのルートがマルチエージェント協調です。

この種のワークフロー設計でより有望なのは、リード Agent が自分で全部やるのではなく、調整役に回り、ほかの Agent が実装、テスト、確認、受け入れを分担する形です。

ここが Ralph との大きな違いです。

Ralph は直列の反復に近い
マルチエージェントは並列の分業に近い

タスクの中に自然な役割分担があるなら、マルチエージェントのほうが扱いやすくなります。たとえば次のように分けられます。

ひとりがタスク分解と実行計画を担当する
ひとりが実装する
ひとりがテストして検証する
ひとりが結果が最初の要件に合っているか見直す

大事なのは、ただウィンドウを増やすことではありません。価値があるのは役割を分離することです。もともと 1 つの Agent に押し込んでいた仕事を、より明確な段階に分けられます。

役割の境界がはっきりすると、いくつかの問題が軽くなります。

書く人とレビューする人を分けられる
テストする側が毎回ゼロから要件を再構築しなくていい
リード Agent が実装詳細に埋もれにくい

これは AI を小さなチームのように協調させるにはどうするか という問題への答えです。

04 本当に重要なのは並列化ではなく、どう分けるか

Ralph を使うにしてもマルチエージェントを使うにしても、見落とされやすいのはこの点です。大事なのは Agent の数より、ワークフロー設計の質です。

タスク分解が悪ければ、Agent を増やしても混乱を並列化するだけです。

より安定しやすい分け方には、だいたい次の特徴があります。

1 タスクに 1 つの明確な目標がある
1 役割に 1 種類の出力責任がある
各ラウンドに明確な完了条件がある
前のラウンドの成果が次のラウンドでそのまま使える

たとえば「機能を全部作って」と一気に投げるより、次のように段階を切るほうが安定しやすいです。

まず要件と境界を分ける
次に実装を分ける
次にテストを分ける
最後に受け入れ確認を独立させる

この分け方の利点は、問題が起きたときに、理解、実装、テスト、受け入れ基準のどこに原因があるのか見つけやすいことです。

05 なぜ受け入れ確認が重要なのか

多くの AI ワークフローが崩れるのは、前半で何もしていないからではありません。最後に、本当に独立した確認ステップがないからです。

長いタスクでは、「結果が生成された」と「その結果が本当に使える」のあいだに、かなり大きな差があることがよくあります。

だからこそ、開発と受け入れを分けて考える方向が重要です。複雑な仕組みにしなくても、少なくとも次の問いは独立して投げる価値があります。

最初のタスクを本当に完了しているか
表面だけ直して根本原因を残していないか
テストが都合のいい経路だけを見ていないか
上流の要件を途中で勝手に変えていないか

この層が欠けると、AI は長いフローの中で何度でも「成功した」と自己申告しがちです。

06 どう選ぶべきか

手早い目安としては、次のように考えられます。

いちばん痛いのがコンテキスト肥大化や長セッションの失焦なら Ralph
いちばん痛いのが 1 つの Agent に役割を詰め込みすぎていることならマルチエージェント

もう少し具体的に言うと、

Ralph は、流れが明快で、粒度が細かく、ラウンド単位で進めやすい仕事に向く
マルチエージェントは、役割分担が明確で、並行処理や相互検証が必要な仕事に向く

実際には、この 2 つは対立するものではありません。むしろ成熟したやり方は組み合わせです。

外側は Ralph のような反復ループで大きなタスクを進める
内側は各ラウンドでマルチエージェントを使い、調査、実装、テスト、受け入れを分担する

こうすれば、長いコンテキストの制御と、1 ラウンド内の協調効率を両方取りにいけます。

07 ひとことでまとめると

これらの方法が重要なのは、Ralph やマルチエージェントそのものを単独で推しているからではありません。むしろ、ひとつの現実的な事実をはっきりさせているからです。AI を長時間安定して働かせる鍵は、モデル単体の強さよりも、コンテキスト、タスク、役割、受け入れ確認をどう設計したかにある。

すでに Claude Code、Codex、そのほかの coding agent に長めの実タスクを任せ始めているなら、こうしたワークフロー発想は「もっと強いモデルに替える」より優先して学ぶ価値があります。

Anthropic の Harness アイデア: エージェントインフラストラクチャはエージェント OS に移行しています

Fri, 10 Apr 2026 09:22:56 +0800

Anthropic は最近、Harness のエンジニアリング実践に関する記事を公開しました。表面的には製品の実装について話しているように見えますが、本質的には長期的な質問に答えています。

**モデルの機能が変化し続ける場合、エージェントシステムのどのレイヤーが安定している必要があり、どのレイヤーが迅速な置き換えを可能にする必要がありますか? **

核心判断

この記事に関する私の基本的な理解は、エージェントインフラストラクチャがますます軽量の エージェント OS に近づいていくだろうということです。

焦点は「今日の最良のプロセスをハードコーディングする」ことではなく、「長期的に安定したシステム抽象化を定義する」ことにあります。

これがなぜ重要なのでしょうか?

多くのエージェントフレームワークに共通する問題は次のとおりです。

モデルの一時的な欠点を永続的な構造に統合します。
プロンプトプロジェクトをシステム境界と間違えた
長期的な依存関係として一度有効なパッチを作成する

モデルはより強力になり、今日合理的なパッチが明日には技術的負債になる可能性があります。

人間的ソリューション: コンクリートハーネスからメタハーネスへ

このアイデアは、固定された配置方法を約束するものではありませんが、安定したインターフェイスの 3 つの層を抽象化します。

session: 回復可能なイベントとステータスの履歴
harness: 推論とスケジューリングのループ (脳)
sandbox: 実行環境とツールの機能 (ハンド)

分離すると、システムの交換、復旧、拡張が容易になります。

1) セッションはコンテキストウィンドウではありません

重要な点は次のとおりです。 **セッションはモデルコンテキストと等しくありません。 **

セッションは、モデルに直接接続された履歴のスプライシングではなく、クエリ可能、再生可能、および回復可能なイベントログである必要があります。

これを行うことの価値:

トリミングは歴史の消滅を意味するものではありません
圧縮は事実の損失と同等ではない
クラッシュリカバリは、サマリーメモリに依存するのではなく、イベントレイヤーに戻ることができます

2) ハーネスは交換可能なオーケストレーションレイヤーです

ハーネスは、ビジネスステータスを保持することよりも、スケジュールを管理することに重点を置く必要があります。

理想的なインターフェイスは次のようなものです。

execute(name, input) -> string

これは、モデルが「どの機能を呼び出すことができるか」のみを考慮しており、特定のデバイス、コンテナー、オペレーティングシステムに強く束縛されていないことを意味します。

3) サンドボックスは「頭脳」ではなく「手」です。

脳と手が切り離されると:

ツール環境は独立して進化できる
異なるインフラストラクチャに並行してアクセス可能
セッションごとに実行環境全体をウォームアップする必要はありません

これは、起動および拡張のパフォーマンスの向上に直接つながります。

パフォーマンスとセキュリティのインスピレーション

多くの場合、この分割によりパフォーマンスとセキュリティの両方が向上します。

パフォーマンス：

最初に脳を起動し、必要に応じて手を引き上げることができます
最初のトークンの遅延を減らす (TTFT)

安全性：

機密性の高い認証情報をモデルに直接公開しないでください
間接的な資格情報アクセスには制御されたプロキシ/ボールトを使用する
安全境界はシステムの制約に基づいており、「モデルが実行できないこと」ではありません。