GPT 5.5 on KnightLiブログ

GPT-5.5 Prompt 移行ガイド：古いプロンプトはまず削ってから直す

Fri, 15 May 2026 01:25:27 +0800

OpenAI は API ドキュメントで GPT-5.5 prompting guide を更新しました。このガイドで最も価値があるのは、さらに長いプロンプトテンプレートを示していることではありません。GPT-5.5 へ移行するとき、多くの古い prompt はむしろ短くすべきだ、と示している点です。

公式ドキュメント：https://developers.openai.com/api/docs/guides/prompt-guidance

一言でいうと、GPT-5.5 の prompting の方向性は次の通りです。プロセスを減らし、結果を書く。ルールを積み上げるより、受け入れ条件を定義する。always や must を乱用せず、いつ止めるか、いつ検証するか、いつ証拠を補うかを書く。

古い prompt をなぜ書き直す必要があるのか

多くの本番システムの prompt は、層を重ねるように作られています。モデルが不安定ならルールを 1 つ足す。ツール呼び出しで失敗したら禁止事項を足す。出力が長すぎたらフォーマット指定を足す。時間が経つと、system prompt は重い運用マニュアルになります。

この書き方は古いモデルでは役に立つこともありました。モデルが逸れないように、より細かい手順制約が必要だったからです。しかし GPT-5.5 では、OpenAI の推奨は明確です。古い prompt stack をそのまま持ち込まないことです。

プロセスを指定しすぎると、いくつかの副作用があります。

ノイズが増え、モデルが大量の古いルールから本当に重要な制約を探す必要がある。
探索空間が狭くなり、モデルがより効率的な解法を選びにくくなる。
出力が機械的になり、問題解決というよりスクリプト実行のように見える。
古いルール同士が衝突し、ツール呼び出しも最終回答も悪くなる。

GPT-5.5 には、各手順を固定するより、目標状態、制約、利用可能な証拠、最終出力を説明する prompt のほうが向いています。

outcome-first：まず完了条件を定義する

公式ドキュメントは、GPT-5.5 には outcome-first prompt が向いていると繰り返し強調しています。

つまり、prompt ではまず次を明確にすべきです。

目標とする結果は何か。
何をもって成功とするか。
どの制約を破ってはいけないか。
現在利用できるコンテキストは何か。
最終回答にどのフィールドやセクションが必要か。
証拠が不足しているときにどうするか。

あまり推奨されない書き方：

まず A を確認し、次に B を確認し、その後すべてのフィールドを比較し、すべての例外を考え、どのツールを呼ぶか決め、ツールを呼び、最後に完全な過程を説明する。

GPT-5.5 により向いた書き方：

ユーザーの問題を解決する。成功条件：
- 利用可能なポリシーとアカウントデータに基づいて判断する
- 操作が許可される場合は、返信前に操作を完了する
- 最終出力には completed_actions、customer_message、blockers を含める
- 重要な証拠が不足している場合は、最小限必要なフィールドだけ質問する

これは prompt を曖昧にすることではありません。制御点を「手順の順番」から「結果と境界」へ移すことです。モデルは検索、推論、ツール呼び出しの経路を自分で選べますが、成功条件には責任を持つ必要があります。

絶対ルールを減らし、判断ルールを書く

古い prompt では ALWAYS、NEVER、must、only が大量に出てきがちです。これらの言葉は使ってはいけないわけではありません。ただし、安全ルール、必須フィールド、禁止アクションのように、本当に破れない制約にだけ残すべきです。

「いつ検索するか」「いつユーザーに聞くか」「いつ続けるか」「いつ止めるか」のような判断には、GPT-5.5 では decision rule のほうが向いています。

たとえば、こう書くだけでは不十分です。

`1`	`常に最初に 3 回検索する。`

こう書くほうがよいです。

まず中核問題をカバーする検索を 1 回行う。最初の数件の結果で重要事実を支えられるなら、検索を止めて回答する。証拠が矛盾している、不足している、または結論を支えられない場合だけ、検索を続ける。

この書き方はモデルに判断余地を与え、同時に停止条件も与えます。Web 検索、retrieval、ファイル検索、データベース問い合わせを使うプロダクトでは重要です。ツール呼び出しが 1 回増えるたびに、遅延とコストが増えるからです。

retrieval budget を設定する

GPT-5.5 prompt に単独で追加する価値があるルールの 1 つが retrieval budget です。

これは金額の予算ではありません。検索をいつ止めるかのルールです。証拠がいつ十分なのか、いつ探し続けるべきか、いつ証拠不足を認めるべきかをモデルに伝えます。

実用的な書き方：

通常の Q&A では、短く識別しやすいキーワードでまず広めに 1 回検索する。最初の数件の結果が中核リクエストを支えられるなら、その結果に基づいて回答し、検索を続けない。結果が矛盾する、重要事実が欠けている、または結論を支えられない場合のみ追加検索する。

このルールは、よくある 2 つの問題を減らします。

検索不足で、証拠のない回答を出す。
検索しすぎて、ツールループで時間を浪費する。

さらに重要なのは、証拠が見つからないことを、事実上の「いいえ」として扱うべきではないという点です。正しい挙動は、証拠不足を明示すること、またはより小さい問いに分けて確認することかもしれません。

reasoning effort を最初から上げない

GPT-5.5 は推論効率が高いため、OpenAI は low と medium を再評価することを勧めています。品質が足りないと感じたときに、すぐ reasoning effort を上げるべきではありません。

より安定した順序は次の通りです。

まず prompt が目標、出力形式、停止条件を明確にしているか確認する。
テスト、引用、レビュー、レンダリング確認などの検証ループを追加する。
ツール呼び出しに持続性ルールと完了基準を追加する。
それでも足りない場合に reasoning effort を上げる。

言い換えると、reasoning.effort は最後の調整つまみに近いものです。明確な prompt 設計の代わりにすべきではありません。

短い分類、フィールド抽出、サポートチケット振り分け、形式変換なら、低い推論コストから始められます。長文書の統合、複数ソースの衝突判断、戦略作成、複雑な調査では、medium 以上を検討します。

text.verbosity は出力を制御するが、思考を制御するわけではない

GPT-5.5 は出力形式をかなり制御できます。公式ドキュメントは、prompt 内の出力要件と合わせて text.verbosity を使うことを勧めています。

デフォルトの text.verbosity は medium です。より短く、よりすっきりした返信が必要なプロダクトでは low を使えます。ただし、すべてを短くすべきという意味ではありません。

典型的な使い方：

ユーザー向けの状態更新と最終要約は短くする。
コード、設定、構造化結果では、引き続き可読性を求める。
「短くする」ために、フィールドの完全性、引用、必要な caveat を犠牲にしない。

これはコード系プロダクトで特に有用です。チャット返信は短くしつつ、生成コードには読みやすい変数名、明確な構造、必要なコメントを求められます。

preamble と phase：長いタスクを見えるようにする

GPT-5.5 は複雑なタスクで、可視テキストを出す前に推論、計画、ツール呼び出し準備を行うことがあります。ストリーミングプロダクトでは、ユーザーは最初の token までの待ち時間を感じます。

公式の推奨は、多段階、ツール密集、長時間実行のタスクでは、モデルに短い preamble を先に出させることです。完全な計画を説明する必要はありません。「まず何をするか」だけを伝えれば十分です。

例：

`1`	`まず関連ファイルと既存設定を確認し、その後で変更案を出します。`

Responses API の長いタスクやツール密集ワークフローでは、assistant item の phase にも注意が必要です。アプリが previous_response_id を使う場合、API は前の assistant 状態を自動で保持します。アプリが assistant 出力を手動で再生する場合、元の phase 値を保持する必要があります。

一般的な約束：

phase: "commentary"：中間状態の更新。
phase: "final_answer"：最終回答。
user message には phase を付けない。

これは低レベル実装の細部に見えますが、ツール呼び出し、状態更新、最終回答を持つプロダクトでは重要です。手動再生時に phase を失うと、モデルが途中経過と最終結論を混同しやすくなります。

モデルに自分の作業を検証させる

GPT-5.5 guide には非常に実用的な点があります。検証可能なタスクでは、モデルに検証ツールと検証ルールを与えることです。

コード Agent には、明確に次を要求できます。

変更後に関連する単体テストを実行する。
必要なら type check や lint を実行する。
影響するパッケージが大きい場合は build を実行する。
全量検証が高コストなら、少なくとも最小の smoke test を行う。
検証できない場合は、理由と次善の確認方法を説明する。

視覚やページ成果物では、まずレンダリングし、レイアウト、切り抜き、余白、欠落内容、視覚的一貫性を確認するよう求められます。

エンジニアリング計画では、要件との対応、関連ファイル/API/システム、状態遷移、検証コマンド、失敗時の挙動、プライバシーとセキュリティ、実装に影響する未決事項を含めるよう求められます。

この種のルールは「もっと注意して」よりずっと効果的です。「注意」を実行可能なチェックに変えるからです。

GPT-5.5 に向いた prompt 骨格

OpenAI ドキュメントの構造は、簡略化すると次のようになります。

Role:
あなたの役割と、作業する文脈。

# Personality
口調、協力スタイル、温度感や視点が必要かどうか。

# Goal
ユーザーに見える目標結果。

# Success criteria
最終回答前に満たすべき条件。

# Constraints
安全、ビジネス、証拠、権限、コスト、副作用の境界。

# Output
出力構造、長さ、口調、必須フィールド。

# Stop rules
いつ続けるか、再試行するか、降格するか、質問するか、停止するか。

この骨格のポイントは、すべての prompt が同じ見出しを持つべきということではありません。複雑なタスクの prompt は、モデルに目的地、境界、成果物を伝えるべきであり、すべての手順をハードコードすべきではないということです。

古い prompt を移行する実際の順序

GPT-4.1、GPT-4o、GPT-5.2、GPT-5.4 向けの古い prompt がある場合、一度に大きく変えるのはおすすめしません。

より安定した移行順序：

まずモデルだけ切り替え、現在の reasoning effort と出力パラメータを固定する。
既存 eval または実例を実行し、挙動の変化を見つける。
明らかに古い、重複する、衝突するプロセスルールを削除する。
「手順要求」を「成功基準」と「停止条件」に変える。
retrieval budget、引用ルール、証拠不足時の挙動を追加する。
ツールタスクに検証ループを追加する。
最後に reasoning.effort と text.verbosity を調整する。

eval がない場合でも、少なくとも代表的なタスクを用意します。簡単な Q&A、複雑な検索、ツール呼び出し、フォーマット出力、拒否/降格、長いタスクの完了です。1 つの demo case だけで prompt の良し悪しを判断しないことです。

古い prompt 移行チェックリスト

実際に移行するときは、まずこのチェックリストを通します。目的は単に prompt を短くすることではなく、無効な制約を削除し、重要な制約を検証可能な形にすることです。

チェック項目	よくある問題	推奨対応
重複ルール	同じ指示が複数箇所にあり、表現が一致しないこともある	1 つの明確なルールに統合し、最終版だけ残す
絶対語	`ALWAYS`、`NEVER`、`must`、`only` が everywhere	安全、コンプライアンス、権限、必須フィールドにだけ残す
停止条件なし	検索、分析、修正を続けるよう要求するが、いつ止めるかがない	証拠十分、検証成功、ターン数やコスト上限など stop rules を追加
検証コマンドなし	「正しくする」と書くだけで、テスト、lint、引用、確認方法がない	テスト、型チェック、build、引用、smoke test など具体化
プロセスが細かすぎる	すべての手順を固定し、モデルがよりよい経路を選べない	目標、成功基準、境界、出力要件に書き換える
古いモデル用補丁	古いモデルの弱点向け制限が残っている	まず削除し、eval で本当に必要か判断する
ツールルールが曖昧	「必要ならツールを使う」だけ	いつ呼ぶか、いつ止めるか、失敗時にどう降格するかを書く
出力形式が漂う	形式指定はあるが、フィールド完全性のルールがない	必須フィールド、任意フィールド、証拠不足時の出力を定義

1 つだけやるなら、「停止条件なし」と「検証コマンドなし」を優先します。この 2 つは、GPT-5.5 を無限ツールループにしたり、証拠なしで整った回答を出させたりしやすいからです。

GPT-5.5 prompt 例：旧 vs 新

以下は完全な system prompt ではなく、移行時によくある部分的な書き換えです。

例 1：検索 Q&A

旧：

`1`	`回答前に必ず 3 回以上検索する。関連するすべての結果を読む。完全な説明を出す。`

新：

まず中核問題をカバーする検索を 1 回行う。最初の数件の結果で重要事実を支えられるなら、検索を止めて回答する。結果が矛盾する、または重要事実が不足している場合は追加検索する。最終回答では根拠を説明し、証拠不足なら明確にそう述べる。

新しい書き方では、「検索回数」を「証拠が十分か」に変えています。モデルに続ける理由と止める理由の両方を与えます。

例 2：コード変更

旧：

`1`	`慎重にコードを修正する。既存ロジックを壊さない。完了後に変更点を教える。`

新：

ユーザー要求に対する最小限必要なコード変更を行う。成功基準：
- タスクに関係するファイルだけを変更する
- ユーザーが明示しない限り、既存の公開 API 互換性を保つ
- 変更後に関連単体テストを実行する。実行できない場合は理由と次善の検証方法を説明する
- 最終要約には変更点、検証結果、残るリスクを含める

新しい書き方は、ただ「慎重に」と言うのではなく、ファイル範囲、API 互換性、テストコマンド、リスク説明に慎重さを落とし込んでいます。

例 3：構造化出力

旧：

`1`	`JSON を出力する。余計な内容は出さない。フィールドは完全にする。`

新：

Markdown なしの厳密な JSON を出力する。必須フィールド：
- status: "ok" | "needs_more_info" | "blocked"
- answer: string
- evidence: string[]
- missing_info: string[]
証拠が不足している場合、status は "needs_more_info" にし、evidence を捏造しない。

新しい書き方は JSON を求めるだけでなく、証拠不足時の合法的な出力経路も定義しています。モデルは「完全なフィールド」と「証拠不足」の間で情報を作る必要がなくなります。

パラメータの組み合わせ

reasoning.effort と text.verbosity は別々に考えるべきではありません。前者はモデルがどれだけ推論するか、後者は出力の詳しさを左右します。よくある誤解は、品質が足りなければ reasoning.effort を上げ、出力が長ければ prompt を強く書くことです。より安定するのは、タスク種別で組み合わせることです。

場面	reasoning.effort	text.verbosity	説明
フィールド抽出、分類、短い形式変換	`none` または `low`	`low`	低遅延を重視し、schema を明確にする
サポート振り分け、簡単なツールルーティング	`low`	`low` または `medium`	ルールが明確なら高推論は不要
通常 Q&A、軽い検索要約	`low` または `medium`	`medium`	判断は必要だが、高推論をデフォルトにしない
複数文書統合、衝突判断	`medium`	`medium`	まず証拠ルールと引用を整え、その後 effort を検討
複雑なコード変更、長い Agent タスク	`medium` または `high`	ユーザー返信は `low`、コード出力は明確に	チャット更新は短く、コードと diff は可読に
戦略、計画、リスク分析	`medium` または `high`	`medium` または `high`	トレードオフ、リスク、仮定の説明が必要

多くのアプリでは、まず low または medium から始めます。prompt が成功基準、停止条件、検証ルールをすでに明確にしていて、それでも重要制約を落とす場合にだけ、reasoning.effort を上げます。

text.verbosity も低ければよいわけではありません。低 verbosity は状態更新、短いサポート返信、操作結果要約に向いています。一方、コード、設定、移行計画、監査説明では、短すぎる出力はレビューしづらくなります。

残すべきルール

GPT-5.5 へ移行することは、古い prompt をすべて削ることではありません。次のルールは通常残すべきであり、より明確に書くべきです。

安全ルール：実行できないアクション、生成できない内容、拒否または降格すべき場面。
コンプライアンスルール：業界ポリシー、地域制限、年齢制限、監査要件、承認要件。
プライバシールール：個人情報処理、機密データのマスキング、ログ制限、データ外部送信の制限。
出力フィールド：API 応答、JSON schema、表フィールド、フロントエンドコンポーネントが必要とする固定構造。
業務境界：返金ルール、アカウント権限、サービスレベル、契約範囲、有人サポートへのエスカレーション条件。
ツール権限境界：呼べるツール、確認が必要なツール、禁止ツール。
引用と証拠ルール：いつ出典が必要か、証拠が衝突したときにどうするか。

これらは古い荷物ではなく、プロダクト契約です。違いは、移行時には長いスローガンから実行可能な制約へ書き換えることです。

例：

`1`	`ユーザーのプライバシーを漏らさない。`

これは次のようにできます。

最終回答に完全な電話番号、身分証番号、access token、API key、内部ユーザー ID を出力しない。参照が必要な場合は、電話番号の下 4 桁だけを残すなど、マスク済み形式だけを表示する。

誤って削ってはいけないもの

prompt を削るときに一番危険なのは、不要な文章を削ることではなく、本物のシステム境界を一緒に削ることです。次の内容は、古く見えても軽く消すべきではありません。

プライバシーとデータ処理要件：特にログ、エクスポート、システム間転送、第三者ツール呼び出しに関するルール。
安全と権限制限：データ削除、送金、メール送信、権限変更、shell コマンド実行など高リスク操作の確認ルール。
引用形式：プロダクトが citation、脚注、出典一覧、監査チェーンに依存しているなら、場所を取るだけで削らない。
ツール呼び出し境界：読み取り専用ツール、書き込み可能ツール、ユーザー確認が必要なツール。
失敗時の挙動：API タイムアウト、データ欠落、検索失敗、権限不足時の降格方法。
業務上の厳格ルール：価格、返金、停止、リスク管理、コンプライアンス審査など、モデルが自由に判断すべきでないルール。

簡単な判断方法は、削っても出力スタイルが少し変わるだけなら削除候補にする。削ると越権、漏えい、誤操作、誤った約束、監査断絶につながるなら残し、より精密に書き換える、というものです。

まとめ

GPT-5.5 prompting guide の核心は、「より高度なプロンプトを書く」ことではありません。古い prompt にある、プロセスを指定しすぎた部分を削ることです。

GPT-5.5 に向いた prompt は次を満たすべきです。

手順ではなく目標を優先する。
「うまくやる」ではなく成功基準を明確にする。
無限検索や無限ツールループではなく停止条件を持つ。
証拠なしに答えたり検索し続けたりせず、証拠予算を持つ。
モデルの自覚だけでなく検証ルールを持つ。
最初から reasoning effort を上げず、パラメータ調整は後にする。

古い system prompt がすでに長いなら、GPT-5.5 への移行の第一歩は内容を追加することではなく、削ることかもしれません。本当に破れないルールを残し、プロセスの細部を結果、境界、チェック項目へ変えるほうが、さらに prompt を積み上げるより効果的です。

参考資料

OpenAI Prompt guidance：https://developers.openai.com/api/docs/guides/prompt-guidance
OpenAI Using GPT-5.5：https://developers.openai.com/api/docs/guides/latest-model

GPT-5.5、GPT-5.4、GPT-5.3-Codex はどう使い分けるべきか

Sun, 10 May 2026 08:43:17 +0800

結論だけ先に言うと、基本は GPT-5.5、コストや使用量をより重視するなら GPT-5.4、そして Codex 環境で長時間のソフトウェアエンジニアリング作業を回したり、Cloud Tasks や Code Review が必要だったりする場合に GPT-5.3-Codex を重点的に見る、という選び方になります。

これは単なる主観ではありません。2026-05-10 時点でも、OpenAI の Codex 公式ドキュメントでは、多くのタスクは gpt-5.5 から始めることを推奨しています。まだ gpt-5.5 が使えない場合は gpt-5.4 を使い、軽いタスクやサブエージェントには gpt-5.4-mini が向いている、という整理です。

3 つのモデルの位置づけ

まずは公式の位置づけから見ます。

GPT-5.5 は Codex における最新のフロンティアモデルで、複雑なコーディング、コンピュータ操作、ナレッジワーク、リサーチワークフロー向けです。難しい分析、多段階タスク、複数ファイルにまたがる修正、方針設計、重めのドキュメント作業に向く、いわば標準の主力モデルです。

GPT-5.4 はより安定した万能型の選択肢です。公式には、GPT-5.3-Codex の高いコーディング能力に、より強い推論、ツール使用、agentic workflow を組み合わせたモデルと説明されています。つまり、単なる「5.5 の弱い版」ではなく、長期的な主力として使いやすいバランス型です。

GPT-5.3-Codex も依然として非常に強いコーディングモデルですが、強みは実際のソフトウェアエンジニアリングや Codex ネイティブのワークフローにより集中しています。公式ドキュメントでも agentic coding tasks 向けに最適化されたモデルだとされており、GPT-5.4 のコーディング能力自体もその長所を引き継いでいます。

そのため、今の時点では GPT-5.3-Codex をそのまま「最強のコーディングモデル」と考えるのはあまり適切ではありません。日常的な開発では、まず GPT-5.5 と GPT-5.4 を優先して検討するほうが自然です。

用途別にどう選ぶか

日常の Q&A、難しい説明、資料整理、ファイル分析、長文の情報統合のような仕事なら、GPT-5.5 が最も向いています。コードを書くだけでなく、コード以外の負荷の高い知的作業にも強いからです。

複雑なプログラミング、リファクタリング、デバッグ、アーキテクチャ設計、複数ファイルの修正なら、やはり GPT-5.5 が第一候補です。Codex 公式の推奨も同じで、gpt-5.5 が使えるならまずそこから始める、という扱いです。

一方で、品質をある程度維持しながら消費量やコストを抑えたいなら、GPT-5.4 がより現実的な標準モデルになります。通常の開発、一般的なリライト、標準的な翻訳、スクリプト生成、バグ修正の多くでは、GPT-5.4 で十分に強く、しかもクレジット消費を抑えやすいからです。

Codex CLI、IDE 拡張、アプリで、よりエージェント的なソフトウェアエンジニアリング作業を回す場合、たとえば長時間リポジトリを読ませる、継続的にコードを書き換える、タスクをキューに積む、Cloud Tasks や Code Review を使うといった場面では、GPT-5.3-Codex にまだ意味があります。これは GPT-5.5 より新しいからではなく、Codex の Cloud Tasks と Code Review が今も GPT-5.3-Codex で動いているからです。

クレジット消費はどれくらい違うか

Codex の credits 表を見ると、この 3 つの違いはかなりはっきりしています。

Business / New Enterprise のトークン単位の料金では、次の通りです。

GPT-5.5：入力 125 credits / 1M tokens、キャッシュ入力 12.5 credits、出力 750 credits
GPT-5.4：入力 62.5 credits / 1M tokens、キャッシュ入力 6.25 credits、出力 375 credits
GPT-5.3-Codex：入力 43.75 credits / 1M tokens、キャッシュ入力 4.375 credits、出力 350 credits

表面的な単価だけで見ると、GPT-5.4 は GPT-5.5 のほぼ半額です。同じくらいの入出力長で処理するなら、一般には 50% 近く節約できると考えてよいでしょう。GPT-5.3-Codex は入力がより安いものの、出力コストはすでに GPT-5.4 にかなり近いため、「圧倒的に安い選択肢」というわけではありません。

ただし見落としやすい点もあります。Codex 公式には、GPT-5.5 uses significantly fewer tokens to achieve results comparable to GPT-5.4 とあります。つまり単価は高くても、複雑なタスクではトークン使用量の少なさややり直しの減少によって、差が縮まる可能性があります。

それでも、固定テンプレートの記事リライト、翻訳、SEO 説明文のように入出力の長さが比較的安定している仕事では、この「遠回りの少なさ」の恩恵は、複雑なソフトウェアエンジニアリングほど大きくありません。実運用では、GPT-5.4 のほうがやはり安く、だいたい 45% から 50% ほど節約できると考えてよいケースが多いです。

Codex での利用制限の違い

単価だけでなく、Codex 内での使え方も同じではありません。

2026-05-10 時点では、GPT-5.5 は Codex の推奨モデルですが、ChatGPT サインインで使う Codex でのみ利用でき、API key 認証には対応していません。GPT-5.4 と GPT-5.3-Codex は API から利用できます。

また、GPT-5.5 と GPT-5.4 は現時点で Codex Cloud Tasks と Code Review をサポートしていません。この 2 つは今も GPT-5.3-Codex の領域です。つまり、Codex 内で長時間のエンジニアリング作業を回したい場合は、単純にモデルの強さだけでなく、必要な機能が GPT-5.3-Codex に依存していないかも確認する必要があります。

ローカルメッセージだけを使う場合、Plus プランの 5 時間ウィンドウの目安は次の通りです。

GPT-5.5：15-80
GPT-5.4：20-100
GPT-5.3-Codex：30-150

ここからも現実的な違いが見えます。GPT-5.5 は最も強力ですが、固定枠の中では使える回数が少なくなりやすい。GPT-5.4 はよりバランスが良く、GPT-5.3-Codex はローカルメッセージだけを見ると、むしろ粘り強く見えることがあります。

よくある場面ではどう選ぶか

日常業務には、かなり種類の違う高頻度タスクがあります。抽象的に「どれが一番強いか」を考えるより、場面ごとに分けて見るほうが実用的です。

1. 日常の Q&A、資料整理、長文要約

GPT-5.5：最も向いています。曖昧な依頼を処理し、文脈を補い、散らばった情報を構造化するのが得意です。

GPT-5.4：通常の要約や大量整理に向いています。難度が高くなく、量が多いならより経済的です。

GPT-5.3-Codex：主力にはあまり向きません。こなせますが、もっとも得意な領域ではありません。

2. 技術概念の説明、コード解説、古いプロジェクトの読解

GPT-5.5：複雑なプロジェクト向きです。ファイル間の関係が多い、呼び出し経路が長い、歴史的経緯が重い、といった場合により安定します。

GPT-5.4：通常の読解には十分です。関数やモジュールの理解、設定の説明、既存プロジェクトの立ち上がり支援に向いています。

GPT-5.3-Codex：より実行寄りで、解説中心の用途では第一候補ではありません。

3. スクリプト、小ツール、SQL、Shell、正規表現

GPT-5.5：スクリプトの背後にシステム設計があったり、複数サービスが連動したり、制約が複雑だったりする場合に向いています。

GPT-5.4：標準の主力として最も使いやすいです。多くのスクリプト、小ツール、SQL、コマンドライン作業には十分で、しかもクレジット効率が良いです。

GPT-5.3-Codex：スクリプトが大きなエージェントワークフローの一部なら候補になりますが、単体の小さなスクリプト作成で優先する必要はありません。

4. バグ修正、小機能追加、テスト補完、通常開発

GPT-5.5：原因分析、複数ファイル修正、テスト補完まで含む少し重い修正に向いています。

GPT-5.4：日常開発の主力として最適です。一般的なバグ、小機能、テストのひな形、リネーム、整形などでは最もバランスが良いです。

GPT-5.3-Codex：対応できますが、Cloud Tasks やエンジニアリングエージェントが不要なら、普通は第一候補ではありません。

5. 複雑なリファクタリング、設計検討、難しいデバッグ

GPT-5.5：最も向いています。複雑な作業で本当に高くつくのは単発の出力ではなく、やり直しだからです。GPT-5.5 は主問題解決モデルとして使いやすいです。

GPT-5.4：中程度の難しさには向いています。設計案やリファクタリングにも使えますが、非常に長い文脈、多段階推論、不確実性の高い問題では GPT-5.5 ほど安定しないことが多いです。

GPT-5.3-Codex：より実行寄りで、この種の高難度な判断中心タスクでは優先順位は低めです。

6. 大量の軽作業、反復作業、サブタスク分割

GPT-5.5：できますが、通常は割高です。

GPT-5.4：最も向いています。コメントの一括修正、整形の一括処理、定型コード生成、内容のまとめて修正といった場面で最もバランスが良いです。

GPT-5.3-Codex：すでに Codex のエンジニアリングフローの中に組み込まれているなら候補ですが、単純な費用対効果では GPT-5.4 に劣りやすいです。

7. 自動化パイプライン、エージェント実行、継続的なリポジトリ操作

GPT-5.5：初期の設計、ルール作成、複雑なタスク分解に向いています。

GPT-5.4：自動化スクリプトや中程度のワークフローロジックの実装に向いており、特に API から使いたい場合に便利です。

GPT-5.3-Codex：ここでは特に重要です。Codex の Cloud Tasks と Code Review が今もこのモデルで動いているため、「仕組みを自走させる」場面に向いています。

8. 重要ページの文章、ブランド紹介、最終仕上げ

GPT-5.5：最も向いています。自然さ、文体制御、長文の一貫性が最も高いです。

GPT-5.4：通常ページや日常更新には十分です。重要ページは GPT-5.4 で下書きを作り、最後に GPT-5.5 で磨くのが実用的です。

GPT-5.3-Codex：主文案モデルには向きません。

9. 固定テンプレートの記事リライト、翻訳、SEO 説明文

GPT-5.5：テンプレート設計、最終調整、重要ページの仕上げ、より自然な中国語から英語への翻訳に向いています。

GPT-5.4：大量処理の主力に最も向いています。標準的な記事リライト、固定構成の翻訳、商品文案の書き換え、Meta description の一括生成では、品質とコストのバランスが良いです。

GPT-5.3-Codex：主文案モデルには向きません。バッチ処理スクリプト、HTML の整形、タグ構造の保持、自動公開フローの改善などに向いています。

10. EC 商品文案、カテゴリページ、大量コンテンツ運用

GPT-5.5：ルール設計、抜き取り確認、高価値ページの最終仕上げに向いています。

GPT-5.4：大量処理の主力として最適です。商品タイトル、カテゴリ説明、キャンペーン文案、ロングテール SEO コンテンツなどでは、品質とコストのバランスが良いです。

GPT-5.3-Codex：クロール、クリーニング、バッチ処理、自動公開スクリプトには向いていますが、主文案にはあまり向きません。

これらを一言でまとめるなら、次のようになります。

複雑な知的作業、複雑な分析、重要な文章作成：GPT-5.5
日常開発、大量処理、反復作業：GPT-5.4
Codex エンジニアリングエージェント、Cloud Tasks、Code Review：GPT-5.3-Codex

最後にどう使い分けるか

普段の仕事が通常のコーディング、バグ修正、技術相談、付随するドキュメント作成であれば、GPT-5.4 は非常に安定した主力になります。

より複雑なプロジェクト分析、複数ファイルの修正、設計検討、難しいデバッグ、あるいはエンジニアリングと重い知的作業の両方を 1 つのモデルでこなしたいなら、素直に GPT-5.5 を優先するのがよいです。

一方で、Codex 環境そのもののワークフロー、たとえば Cloud Tasks、Code Review、長時間のエージェント実行が重要なら、GPT-5.3-Codex はまだ残す価値があります。ただし、もはや最初の既定選択にするモデルではありません。

固定テンプレートのコンテンツサイトであれば、実用的な組み合わせは次のようになります。

GPT-5.4 で大量生成
GPT-5.5 でテンプレート設計、抜き取り確認、最終仕上げ
GPT-5.3-Codex で自動化ツールを書く

まとめ

現在のより現実的な優先順は、GPT-5.5、GPT-5.4、GPT-5.3-Codex の順です。GPT-5.3-Codex は、よりエンジニアリングエージェント寄り、あるいは Codex 固有機能寄りの場面に置くのが自然です。

もし「同じテンプレート記事をリライトする場合、GPT-5.4 は GPT-5.5 よりどれくらい節約できるのか」を知りたいなら、公式の credits 表とこの種のタスクに典型的なトークン構造を見る限り、「ほぼ半分近く節約できる」と考えてよいでしょう。大量コンテンツサイトではその差は十分に大きいため、GPT-5.5 を最初に使ってルールと文体を固め、その後の大量処理を GPT-5.4 に任せる、という運用がもっとも現実的です。

GPT-5.5、GPT-5.5 Instant、GPT-5.5 Thinking、GPT-5.5 Pro の違い

Thu, 07 May 2026 21:59:33 +0800

OpenAI は現在、GPT-5.5 を Instant、Thinking、Pro という、より明確な利用階層に分けています。

GPT-5.5、GPT-5.5 Instant、GPT-5.5 Thinking、GPT-5.5 Pro は混同されがちです。簡単に言えば、GPT-5.5 はこの世代のモデル能力の総称です。Instant は日常向けの高速モデル、Thinking は深い推論モード、Pro はより重い研究級モードです。

早見表

名称	本質	向いている用途	速度/コスト	利用可能性
GPT-5.5	GPT-5.5 の主モデル/ファミリー名。ChatGPT では通常 GPT-5.5 Thinking の能力位置付けに近い	複雑な作業、コード、研究、分析、ツール利用	Instant より重いが、能力は高い	Plus、Pro、Business、Enterprise
GPT-5.5 Instant	GPT-5.3 Instant を置き換える高速デフォルトモデル	日常 Q&A、文章作成、要約、軽いコード、素早い調査	最速で、最もクォータ効率が良い	すべての ChatGPT ユーザーへ段階的に展開
GPT-5.5 Thinking	深い推論モード	難問、長文脈分析、複雑なコード、研究、文書密集タスク	遅めだが、推論が安定	有料ユーザーが手動選択可能
GPT-5.5 Pro	より高強度な研究級モード	高リスク/高精度タスク：法律、ビジネス、教育、データサイエンス、科学研究分析	最も遅く重いが、品質重視	Pro、Business、Enterprise、Edu

一つだけ覚えるなら次の通りです。

日常の高速タスク：GPT-5.5 Instant。
複雑な推論とコード分析：GPT-5.5 Thinking。
特に難しく重要で、より網羅的かつ厳密さが必要な作業：GPT-5.5 Pro。

GPT-5.5 とは何か

単独で GPT-5.5 と言う場合、通常は GPT-5.5 世代の主なモデル能力を指し、固定の一つのボタンを指すわけではありません。

OpenAI は GPT-5.5 を「実際の仕事に向いた、より強いモデル」と位置付けています。重点は次のような能力です。

agentic coding。
複雑なコードデバッグ。
研究と資料の統合。
文書、表計算、プレゼン資料の生成。
コンピュータ利用とツール横断作業。
長いタスクでの継続的推論と自己チェック。

ChatGPT では、ユーザーが見るのは曖昧な GPT-5.5 ボタンではなく、より具体的な Instant、Thinking、Pro です。そのため「GPT-5.5 を使っている」と聞いたら、Instant なのか、Thinking なのか、Pro なのかを確認した方がよいです。

GPT-5.5 Instant：デフォルト、高速、日常向け

GPT-5.5 Instant は新しい高速デフォルトモデルです。OpenAI の公式説明では、GPT-5.3 Instant を置き換え始め、ChatGPT のデフォルトモデルになり、API では chat-latest として提供されます。

向いているタスク：

日常会話。
素早い Q&A。
普通の文章作成。
記事の要約。
メールの書き換え。
軽いコード説明。
簡単な表やリスト。
長時間の推論を必要としないタスク。

Instant の主な利点は速度とデフォルト利用です。毎回手動で推論モードを選ぶ必要がなく、普通の質問に高い待ち時間を払う必要もありません。

もう一つの変化として、OpenAI は GPT-5.5 Instant の回答がより明瞭で簡潔になり、パーソナライズ能力も強くなったとしています。普通のユーザーにとっては、一日中開いておくモデルとして使いやすいということです。

注意点は、Instant が「最強モード」ではないことです。複雑な数学、長いコード、アーキテクチャ設計、複数ファイル分析、本格的な研究では、自動的に Thinking に切り替わることもあれば、手動で Thinking を選ぶ必要があることもあります。

GPT-5.5 Thinking：複雑タスクの主力

GPT-5.5 Thinking は、複雑なタスクに向いた推論モードです。

向いている場面：

コードデバッグ。
アーキテクチャ設計。
多段階推論。
長文書分析。
学術資料整理。
ビジネス案の検討。
データ分析の説明。
比較、トレードオフ、検証が必要なタスク。

Thinking はより多くの時間を使って推論します。OpenAI Help Center によると、GPT-5.5 Thinking または GPT-5.5 Pro が推論を開始すると、何をするつもりかを説明する短い preamble が表示されることがあります。モデルが thinking 中でも、ユーザーは追加指示を入れて方向を早めに調整できます。

ChatGPT で Thinking を手動選択する場合、thinking time も調整できます。公式説明では、Plus と Business ユーザーは Standard と Extended を使えます。Pro ユーザーには Light や Heavy など、さらに多くの選択肢があります。

私の理解では、Thinking は「本気で作業する」ための標準選択です。タスクが多段階、長文脈、高い正確性を必要とするなら、Instant より適しています。

GPT-5.5 Pro：研究級で、より重く、より厳密

GPT-5.5 Pro は、より難しい問題と高精度作業向けのモードです。

向いている場面：

法律資料分析。
ビジネス調査。
教育とカリキュラム設計。
データサイエンス。
科学研究資料の統合。
高リスク判断前の深いレビュー。
複数文書、複数制約、複数ラウンドの検証タスク。

OpenAI は GPT-5.5 の発表で、初期テスターが GPT-5.5 Pro について、GPT-5.4 Pro と比べて完全性、構造性、正確性、関連性、実用性が明らかに向上したと評価したと述べています。特にビジネス、法律、教育、データサイエンスで強いとされています。

Pro の欠点も明確です。遅く、重く、小さな質問すべてに使うものではありません。日常チャットの入口というより、専門家レビューや研究パートナーに近いものです。

また Pro にはツール対応の制限があります。OpenAI Help Center では、Apps、Memory、Canvas、画像生成は Pro では利用できないとされています。これらの ChatGPT 機能が必要な場合は、Instant または Thinking を使う方がよいかもしれません。

ツール対応の違い

OpenAI Help Center によると、GPT-5.5 Instant と GPT-5.5 Thinking は ChatGPT の一般的なツールに対応しています。

Web search。
Data analysis。
Image analysis。
File analysis。
Canvas。
Image generation。
Memory。
Custom Instructions。

GPT-5.5 Pro は研究級推論寄りですが、すべての ChatGPT ツールを使えるわけではありません。特に次に注意します。

Apps は利用不可。
Memory は利用不可。
Canvas は利用不可。
画像生成は利用不可。

つまりモデルを選ぶときは、「どれが賢いか」だけでなく、必要なツールも見る必要があります。

コンテキストウィンドウの違い

OpenAI Help Center が示す ChatGPT のコンテキストウィンドウは、おおよそ次の通りです。

モード	コンテキストウィンドウ
GPT-5.5 Instant	Free：16K；Plus/Business：32K；Pro/Enterprise：128K
GPT-5.5 Thinking	有料プランで手動選択した場合は通常 256K；Pro では最大 400K

つまり次のように考えられます。

普通の会話と短い文書なら Instant で十分。
複数ファイル、多ラウンド研究、長いコードベース分析なら Thinking が向く。
特に長く複雑で高精度なタスクでは、Pro ユーザーはより大きな文脈と重い推論を使える。

どう選ぶか

日常 Q&A

GPT-5.5 Instant を使います。

速く、十分賢く、気軽な質問、素早い文章作成、素早い修正に向いています。

記事作成、要約、メール修正

まず GPT-5.5 Instant を使います。

記事が長い、構造的な書き直しが必要、複数回の校正が必要な場合は、GPT-5.5 Thinking に切り替えます。

コード作成とデバッグ

簡単なコード説明は Instant で十分です。

複数ファイルのデバッグ、アーキテクチャ設計、複雑なエラー分析には Thinking を使います。非常に難しい長期的なエンジニアリング問題なら Pro も検討できます。

研究と資料分析

普通の資料整理には Thinking を使います。

法律、ビジネス、科学研究、データサイエンスのような高精度タスクでは Pro がより適しています。

画像生成、Canvas、Memory が必要な場合

Instant または Thinking を優先します。

Pro は一部の ChatGPT ツールに対応していないため、デフォルトで Pro を選ばない方がよいです。

短い結論

GPT-5.5 Instant は日常のデフォルトモデルです。速く、明瞭で、クォータ効率が良く、多くの普通のタスクに向きます。

GPT-5.5 Thinking は複雑タスクの主力です。コード、研究、長文書、分析、多段階推論に向きます。

GPT-5.5 Pro は高精度研究モードです。より難しく重要で、厳密さが必要なタスクに向きますが、速度とツール対応にはより制限があります。

GPT-5.5 そのものは、この世代の総称に近いものです。実際に選ぶときは、ChatGPT で Instant、Thinking、Pro のどれを選ぶかが重要です。

ChatGPT Release Notes から見る OpenAI のプロダクトリズム

Thu, 07 May 2026 14:31:22 +0800

OpenAI の ChatGPT Release Notes は、ChatGPT のプロダクトリズムを観察する直接的な入口だ。このページは、ChatGPT のモデル、機能、アカウントセキュリティ、アプリ連携、クライアント体験の変化を継続的に記録している。

2026 年 5 月 7 日時点で見ると、ページ上部には最新更新が「yesterday」と表示され、最新項目は 2026 年 5 月 5 日に集中している。一見すると普通の更新に見えるが、まとめて見ると ChatGPT が向かう方向が分かる。デフォルトモデルはより信頼でき、記憶はより制御可能になり、オフィスシーンに深く入り、アカウント安全性も補強されている。

最新重点1：記憶ソースが見えるようになる

5 月 5 日の最初の更新は、ChatGPT の記憶改善だ。

OpenAI は、Plus と Pro ユーザーに対して、より個人化され継続的な回答を段階的に提供するとしている。ChatGPT は過去のチャット、保存記憶、利用可能なファイル、接続済み Gmail の文脈をよりうまく使い、ユーザーに合った提案、推薦、次の行動を出せる。

この能力の価値は長期利用で明確になる。ユーザーがプロジェクトを進めていたり、連載記事を書いていたり、メール群を追っていたり、同種の作業を繰り返していたりすると、毎回背景を説明し直すことが負担になる。より強い記憶能力は、その繰り返しを減らすためのものだ。

しかし記憶が強くなるほど、ユーザーはモデルがどの文脈を使ったのか知る必要がある。そのため OpenAI は memory sources を導入した。ユーザーは回答下で、関連する保存記憶、過去のチャット、カスタム指示、特定条件で参照されたファイルや Gmail メールを確認できる。

情報が古い、不正確、またはもう関連しない場合、ユーザーは修正、削除、または不関連としてマークできる。

パーソナライズは「より分かってくれる」だけではない

AI のパーソナライズについて語るとき、多くの人は「モデルが自分をより理解するか」だけを見る。しかし長期的に使えるパーソナライズには、3つの問いに答える必要がある。

ユーザーはモデルが何を参照したか見られるか。
ユーザーはその情報を編集または削除できるか。
ユーザーは記憶が不要なときにオフにできるか。

Release Notes では、memory sources はユーザー自身のアカウント体験内にのみ表示され、チャット共有時には他人に表示されないと明記されている。ユーザーはチャットを削除し、Temporary Chat を使い、記憶をオフにし、アプリ接続を解除し、コンテンツがモデル改善に使われるかを管理できる。

これは、OpenAI がパーソナライズ能力を積むだけでなく、制御インターフェースも補っていることを示す。長期的なアシスタントにとって、この一歩は重要だ。

最新重点2：GPT-5.5 Instant がデフォルトモデルに

同じ日に、OpenAI は GPT-5.5 Instant を ChatGPT の新しいデフォルトモデルとして展開し、すべてのユーザーの GPT-5.3 Instant を置き換え始めた。

Release Notes はこのモデル更新を実務的に説明している。より正確で、より明確で、より簡潔になり、画像理解、STEM 質問、いつ web search を使うかの判断も改善している。

この種のデフォルトモデル更新はユーザーへの影響が大きい。ほとんどのユーザーは毎日モデルを切り替えない。彼らが感じる ChatGPT の品質は、デフォルトモデルの品質だ。デフォルトモデルの幻覚が減り、無駄な文章が減り、意味のない追問が減れば、実際の体験は明確に改善する。

OpenAI はまた、GPT-5.5 Instant が過度なフォーマットや不要な装飾的内容を減らすとも述べている。これは小さく見えるが、日常利用には近い。多くの場合、ユーザーが必要としているのは構造の整った小論文ではなく、正確で直接的で実行可能な答えだ。

有料ユーザーは GPT-5.3 Instant を3か月間使い続けられ、その後このモデルは退役する。

最新重点3：ChatGPT が Excel と Google Sheets に入る

5 月 5 日の3つ目の更新は、ChatGPT for Excel と Google Sheets のグローバル提供だ。

この機能は Microsoft Excel と Google Sheets のサイドバーに ChatGPT を入れ、ユーザーが表計算内で直接データを構築、更新、理解できるようにする。公式が挙げるシーンには、トラッカー、予算、数式、複数シートのファイル、シナリオ分析、スプレッドシート整理がある。

これは ChatGPT が「チャット画面で質問に答える」だけに留まっていないことを示している。ユーザーがすでに働いている場所へ入っている。

オフィスユーザーにとって、表計算は非常に高頻度の実作業現場だ。多くの会社、チーム、個人の業務データは、複雑なデータプラットフォームではなく、多数の Excel と Google Sheets ファイルにある。ChatGPT が表計算の横で直接データを理解し、数式を書き、複数シートを整理し、結果を説明できるなら、チャット画面へコピー＆ペーストするよりハードルはかなり低い。

OpenAI は、数式や分析に依存する前に出力を確認するよう促している。これは現実的だ。AI は表計算作業を速くできるが、財務、運用、業務判断の責任をすべてユーザーの代わりに負うことはできない。

4月末の下地：安全性とモデル選択

少し前を見ると、4月30日の Advanced Account Security も注目に値する。

これは個人 ChatGPT アカウント向けの任意の安全設定だ。有効にすると、passkeys や互換セキュリティキーのようなより強いサインイン方式を使い、パスワードログイン、メールやSMSのログインコード、メールベースのアカウント復旧といった弱い経路を無効化する。さらにリカバリキー、短いアクティブセッション、ログイン通知、セッション管理コントロールも含まれる。

この種の機能は、ChatGPT アカウントの重要性が上がっていることを示す。ファイル、記憶、アプリ接続、メール、表計算、作業プロジェクトが ChatGPT に入るにつれ、アカウント安全性は単なるログイン問題ではなく、ユーザーの長期的な仕事文脈に関わる問題になる。

4月28日には、OpenAI はモデル選択入口を入力欄の近くに移し、Thinking と Pro モデルの thinking effort 制御をモデルピッカーに入れた。これは典型的なプロダクト細部の変更だ。モデルが増えるほど、ユーザーは送信前に適切なツールを選びやすくする必要がある。

4月下旬のもう一つの方向：より速い通常回答

4月22日、ChatGPT は Fast answers を導入した。

これは一般的な情報問い合わせ向けの機能だ。質問がパーソナライズを必要とせず、ChatGPT が高信頼の答えを持っている場合、より速く結果を返せる。Fast answers は過去のチャットや記憶を参照せず、ユーザーはパーソナライズ設定でオフにできる。

これは記憶強化と逆に見えるが、実際には同じプロダクトロジックだ。異なる質問には異なる処理が必要になる。

「先週のプロジェクト計画を続けて」のような質問には長期文脈が必要だ。一方、「世界七不思議は何か」のような質問には速さと明確さが必要だ。前者には記憶と文脈が必要で、後者には速度と明瞭さが必要になる。ChatGPT はこれらの経路を分け始めている。

プロダクトリズムの変化

これらの release notes から、ChatGPT の更新はもはやモデル発表だけではないことが分かる。

現在の更新は同時に次をカバーしている。

デフォルトモデル品質。
記憶とパーソナライズ。
アプリ接続とオフィスアドイン。
アカウント安全性。
モデル選択とインタラクション入口。
Fast answers とモバイル体験。

これは ChatGPT が単一の AI チャット製品から、より完全な作業プラットフォームへ移行していることを意味する。モデル能力は依然として重要だが、プロダクト体験、文脈管理、ツール入口、アカウント安全性、サードパーティ連携も同じくらい重要になっている。

短い判断

この ChatGPT Release Notes で最も見るべきなのは、特定の1つの更新ではなく、それらが組み合わさって示す方向だ。

OpenAI は ChatGPT を、より速く、より文脈を理解し、よりオフィスシーンに入り、同時により制御可能で安全なものにしている。GPT-5.5 Instant はデフォルト回答品質を高め、memory sources はパーソナライズの出所を説明し、Excel と Google Sheets は実際の作業ファイルへ入る。Advanced Account Security は、より重いアカウント利用に保護を足している。

今後、ChatGPT の競争力はモデルパラメータだけで決まらない。これらの更新を、安定し、明確で、ユーザーが長期的な文脈を預けたいと思えるプロダクト体験へまとめられるかにも左右される。

ChatGPT Release Notes 更新：記憶ソース、GPT-5.5 Instant、表計算アドイン

Thu, 07 May 2026 14:30:15 +0800

OpenAI の ChatGPT Release Notes ページは 2026 年 5 月初めに更新された。最新の主な内容は3つある。ChatGPT の記憶ソースとパーソナライズ能力の強化、GPT-5.5 Instant の新デフォルトモデル化、そして ChatGPT for Excel と Google Sheets のグローバル提供だ。

これらを合わせて見ると、方向は明確だ。ChatGPT は単なるチャット入口から、より継続的で、より個人化され、オフィス作業に近いワークアシスタントへ進んでいる。

Memory sources：パーソナライズをより透明に

最新更新で最も注目すべきなのは memory sources だ。

OpenAI は、ChatGPT Plus と Pro ユーザーに対して記憶機能の改善を展開し始めるとしている。ChatGPT は過去のチャット、保存された記憶、利用可能なファイル、接続済み Gmail アプリから関連文脈をよりうまく取り出し、ユーザーに合ったアイデア、提案、次の行動を出せるようになる。

これにより、ユーザーは新しい会話のたびにプロジェクト背景、好み、作業習慣、既存資料を繰り返し説明する必要が減る。長期的な執筆、プロジェクト計画、資料整理、学習、チーム作業では、継続性が強くなる。

ただし、パーソナライズが強くなるほど透明性は重要になる。そのため OpenAI は memory sources を導入し、どの情報が回答のパーソナライズに使われたかをユーザーが確認できるようにする。回答下の Sources アイコンを押すと、関連する保存記憶、過去のチャット、カスタム指示を確認できる。Plus と Pro ユーザーは、ライブラリ内のファイルや、接続済み Gmail から参照されたメールも見る場合がある。

情報が古い、不関連、または誤っている場合、ユーザーは修正、削除、または不関連としてマークできる。

記憶の制御は依然として重要

OpenAI は、memory sources が回答に影響したすべての要因を表示するとは限らず、今後もこのビューを改善すると説明している。

これは重要な注意点だ。memory sources は完全な「モデル思考ログ」ではない。個人化の文脈を理解するためのプロダクトインターフェースだ。可視性は高めるが、すべての影響要因を完全に展開するものではない。

プライバシーと制御について、OpenAI は memory sources がユーザー自身のアカウント体験内にのみ表示されると述べている。チャットを共有しても、関連 sources は共有チャットに表示されない。ユーザーはチャットを削除したり、記憶を使わず更新もせず履歴にも残らない Temporary Chat を使ったり、記憶をオフにしたり、アプリ接続をいつでも解除したり、自分のコンテンツがモデル改善に使われるかを管理できる。

これは、ChatGPT のパーソナライズがより明確な道筋を取っていることを示している。ユーザーをより理解する一方で、なぜそう答えたのかを知らせ、管理入口も残すという方向だ。

GPT-5.5 Instant がデフォルトモデルに

Release Notes は、GPT-5.5 Instant が ChatGPT の新しいデフォルトモデルとして展開され、すべてのユーザー向けの GPT-5.3 Instant を置き換えることも確認している。

今回のデフォルトモデル更新では、主に次の点が改善される。

正確性。
明確さと簡潔さ。
画像理解。
STEM 質問への回答。
いつ web search が必要かの判断。

OpenAI は、GPT-5.5 Instant が特に正確性が重要なプロンプトでより事実に強いと強調している。また、より引き締まった直接的な回答を出し、不要な追問を減らし、過度なフォーマットや装飾的な内容による散らかりを減らす。

ユーザーにとって、これは新しいボタンほど目立たないかもしれない。しかし毎日 ChatGPT を開くときの体感には効く。回答が遠回りせず、冗長さが減り、簡単な質問に過剰な形式を積み上げにくくなる。

パーソナライズとデフォルトモデルがつながる

Web 版の Plus と Pro ユーザーに対して、GPT-5.5 Instant は過去のチャット、ファイル、接続済み Gmail の文脈をより効果的に使える。

これは memory sources と同じプロダクトラインにある。モデルは単に「賢い」だけではなく、適切な場面で、ユーザーが以前に何をしていたか、何を気にしているか、どんな資料をすでに提供したかを理解する必要がある。プロジェクトの継続、計画作成、メール情報の整理、過去の好みに基づく提案では、ChatGPT は重複した質問を減らせる。

有料ユーザーは GPT-5.3 Instant をモデル設定から3か月間使い続けられ、その後このモデルは退役する。

ChatGPT for Excel と Google Sheets

もう一つの重要な更新は、ChatGPT for Excel と Google Sheets のグローバル提供だ。

これは Microsoft Excel と Google Sheets のサイドバーに ChatGPT を入れ、ユーザーが表計算内で直接データを作成、更新、理解できるようにする。OpenAI が挙げるシーンは次の通りだ。

トラッカー。
予算。
数式。
複数シートのファイル。
シナリオ作業。
スプレッドシートの整理。

利用可能な条件では、Skills と apps もサポートする。

この機能の意味は分かりやすい。多くのオフィスデータは専用 BI システムではなく、Excel と Google Sheets にある。ChatGPT を表計算のサイドバーに置くことは、チャット画面へコピー＆ペーストさせるより自然で、実際のワークフローに入りやすい。

利用制限とインストール方法

Release Notes によると、Free と Go には限定的な利用量が含まれる。Plus と Pro は Codex と同じ agentic usage limits を使う。プラン上限を超える場合、追加 credits を購入できる。

インストール方法も直接的だ。Excel 版は Microsoft Marketplace から、Google Sheets 版は Google Workspace Marketplace からインストールし、対象となる ChatGPT アカウントでログインする。

OpenAI は、数式や分析に依存する前に出力を確認するよう促している。これは重要だ。AI は表計算作業を速くできるが、数式、予算、財務、業務分析は依然として人間の確認が必要だ。

短い判断

今回の ChatGPT Release Notes の焦点は、単一の機能ではなく、プロダクト形態がさらに整えられていることだ。

GPT-5.5 Instant はデフォルト回答品質を高める。memory sources はパーソナライズを見えるようにする。Excel と Google Sheets のアドインは ChatGPT をオフィスの表計算に入れる。Advanced Account Security とモデル選択の変更は、アカウント保護と操作体験を補強する。

ChatGPT はより長期的な作業レイヤーになりつつある。より多くの文脈を覚え、より多くのツールに入り、より多くの日常タスクを担う。次に見るべきなのは、パーソナライズの透明性が十分に分かりやすいか、オフィスアドインが実際の複雑な表計算で安定するか、そしてユーザーが便利さと制御のバランスを保てるかだ。

GPT-5.5 Instant 公開：ChatGPT のデフォルトモデルはより正確で短く、より個人に合うように

Thu, 07 May 2026 14:28:40 +0800

OpenAI は 2026 年 5 月 5 日、GPT-5.5 Instant を公開し、すべての ChatGPT ユーザー向けのデフォルトモデルとして展開を開始した。

今回の更新のキーワードは「より大きい」や「より派手」ではない。日常利用に近い改善だ。回答はより正確で簡潔になり、語調はより自然になり、ユーザーがすでに共有した文脈をよりうまく使う。ChatGPT にとって、デフォルトモデルの変化は特に重要だ。最も多くのユーザーが毎日実際に使う体験を変えるからだ。

デフォルトモデルが重要な理由

Instant は ChatGPT の日常的な主力モデルだ。多くのユーザーは手動でモデルを切り替えず、モデル間の違いも詳しく調べない。彼らが感じる ChatGPT の品質は、デフォルトモデルの品質そのものだ。

そのため GPT-5.5 Instant の意味は、新しいモデル名が増えたことだけではない。基礎体験を全体として一段押し上げることにある。OpenAI は、今回の更新により日常的なやり取りがより有用でスムーズになると説明している。さまざまなテーマで回答が引き締まり、会話のトーンが自然になり、必要なときには既存の文脈をよりよく使える。

この改善は大規模なマルチモーダル発表ほど目立たないかもしれない。しかし数億規模のユーザーにとって、デフォルトモデルがミスを減らし、冗長さを減らし、不要な質問を減らすこと自体が大きなプロダクト変化だ。

幻覚が少なく、より信頼できる回答

OpenAI は正確性を最初に置いている。

公式によると、内部評価では、医学、法律、金融など高リスク領域のプロンプトに対して、GPT-5.5 Instant は GPT-5.3 Instant よりも幻覚的な主張を 52.5% 減らした。また、ユーザーが事実誤りとして報告した特に難しい会話では、不正確な主張が 37.3% 減った。

この2つの数字は重要だ。OpenAI がモデルを「話がうまい」方向に進めるだけでなく、事実誤りの発生率を下げ続けていることを示している。特に医療、法律、金融のような領域では、モデルは流暢な答えを出すだけでは不十分で、より慎重で、作り話が少なくなければならない。

もちろん、これで ChatGPT を専門家の助言の代わりにしてよいという意味ではない。より正確なモデルでも、高リスク領域では確認、出典、専門家の判断が必要だ。それでもプロダクト体験として、デフォルトモデルの事実信頼性が上がることは、日常利用の誤誘導を減らす。

日常タスク能力の強化

GPT-5.5 Instant は事実性だけでなく、複数の日常タスクでも改善している。

OpenAI は、写真や画像アップロードの分析、STEM 質問への回答、そしていつ web search を使うべきかの判断が改善したと述べている。ここで重要なのは「いつ検索するかを判断する」ことだ。多くのユーザーは、モデル内部でツールが呼ばれたかどうかではなく、答えが新しく、正確で、分かりやすいかを気にする。

モデルが、どの質問は検索が必要で、どの質問は直接答えられるかをよりよく判断できれば、ユーザーは何度も「調べて」と言う必要がない。ChatGPT は、明示的な指示を待つチャット欄ではなく、より能動的で信頼できる助手に近づく。

発表内の数学例もこの方向を示している。GPT-5.5 Instant は最初に誤った解法を認めた後、さらに確認して代数ミスを見つけ、正しい方程式に戻って解く。本当に重要なのは、まったく間違えないことではなく、推論の途中で問題に気づき修正できる可能性が高まることだ。

回答は短くなるが、薄くなるわけではない

OpenAI は、GPT-5.5 Instant の回答がより引き締まり、直接的になる一方で、必要な内容と ChatGPT の親しみやすいトーンを保つとも強調している。

これはデフォルトモデルにとって重要だ。AI の回答に疲れる理由は、情報不足ではなく、構造が重すぎること、前置きが多すぎること、フォーマットが過剰なことにある場合が多い。単純な質問が5つの見出しと十数個の注意点に分解されると、不自然に感じられる。

GPT-5.5 Instant の目標は、不要な長さと過度なフォーマットを減らし、不要な追問を減らし、回答を散らかす装飾的な要素を避けることだ。日常の業務、文章相談、生活相談、素早い説明では、こうした改善が単一のベンチマーク点よりも体感に効く。

短いことは浅いことではない。良いデフォルトモデルは、ユーザーが必要としているのが一言の実行可能な助言なのか、説明なのか、完全な計画なのかを判断するべきだ。GPT-5.5 Instant は、このバランス感覚をより安定させる方向にある。

パーソナライズ能力も強化

今回のもう一つの主軸はパーソナライズだ。

OpenAI は、Instant が過去のチャット、ファイル、接続された Gmail の文脈をよりうまく使い、回答をより関連性の高いものにできると述べている。追加のパーソナライズが回答を改善できる場面を判断し、過去の会話から関連文脈をより速く探すため、ユーザーは同じ背景を繰り返す必要が減る。

これは ChatGPT を長く使っている人にとって価値が大きい。計画、執筆、ツール選び、プロジェクト整理、ワークフローの継続では、ユーザーはすでに過去の会話で好み、制約、文脈を伝えていることが多い。モデルが自然に引き継げれば、説明の重複が減る。

ただし、パーソナライズには透明性と制御が必要だ。そうでなければ、なぜモデルが突然ある好みに触れたのか、どの記憶が回答に影響したのかが分からない。

Memory sources でパーソナライズを見えるようにする

OpenAI は同時に、すべての ChatGPT モデルに memory sources を導入する。

これは、保存された記憶や過去のチャットなど、どの文脈が回答のパーソナライズに使われたかをユーザーが確認できる機能だ。古い、不正確、またはもう使わせたくない内容があれば、削除や修正ができる。

OpenAI はまた、ユーザーがチャットを共有しても memory sources は他の人には表示されないと説明している。引用されたくないチャットを削除したり、設定で保存記憶を変更したり、記憶を使わず更新もしない Temporary Chat を使ったりできる。

これは重要な一歩だ。AI アシスタントが個人化されるほど、「何に基づいて答えたのか」を説明する必要が増える。Memory sources はすべての要因を示すわけではないが、パーソナライズの一部をブラックボックスの外へ出す。

利用可能性

GPT-5.5 Instant は発表当日から全 ChatGPT ユーザーへ展開され、GPT-5.3 Instant に代わってデフォルトモデルになる。API では chat-latest に対応する。

有料ユーザーは、モデル設定から GPT-5.3 Instant を3か月間使い続けられる。その後、このモデルは退役する。

過去のチャット、ファイル、接続 Gmail を使った強化パーソナライズは、まず Web 版の Plus と Pro ユーザーに展開され、モバイルにも後日提供される。今後数週間で Free、Go、Business、Enterprise に広げる計画だ。Memory sources は Web 版の ChatGPT 消費者プランに展開され、モバイルにも後で提供される。利用できるパーソナライズ元は地域によって異なる場合がある。

短い判断

GPT-5.5 Instant は、デフォルト体験に向けたアップグレードだ。

モデル能力が強くなるだけではない。回答の正確性、密度、トーン、文脈利用、パーソナライズの透明性を同時に調整している。一般ユーザーにとって最も直接的な変化は、無駄な文章が減り、事実誤りが減り、自分の背景によりつながりやすくなることだろう。

OpenAI にとっては、デフォルトアシスタントの形を進化させる一歩でもある。ChatGPT は「毎回ゼロから質問に答える」ツールから、好みを覚え、文脈を理解し、いつ検索すべきかを判断し、ユーザーが記憶の出所を管理できる長期的なアシスタントへ進んでいる。

誰が GPT-5.5 にゴブリンを入れたのか？

Sat, 02 May 2026 11:02:16 +0800

OpenAI は最近、小さいけれど示唆の多い問題を振り返りました。なぜ GPT-5.5 は Codex で goblin や gremlin のような表現を頻繁に使うようになったのか、という話です。

これは単なる口癖の問題ではありません。モデル訓練でよく起きる現象を示しています。モデルは特定の単語を直接覚えたのではなく、強化学習の過程で「報酬されやすい」表現スタイルを学んだ可能性があります。

何が起きたのか

GPT-5.5 の訓練後期、Codex ユーザーは、モデルがコード問題、テスト失敗、異常な挙動を説明するとき、擬人化された表現を好むことに気づき始めました。

OpenAI 内部でも同様の現象が観察されました。GPT-5.5 は以前のバージョンと比べて、goblin や gremlin などの語をより頻繁に使っていました。研究チームはこれを一種の奇妙な人格特性として扱い、その出どころを追跡しました。

単なるデータの復唱ではない

最初に考えられるのは、訓練データにこうした表現が多く含まれていて、モデルが高頻度語を学んだだけという説明です。

しかし OpenAI の調査では、それだけでは説明できませんでした。事前学習データ内に関連語は存在したものの、訓練後期の行動変化を説明できるほど多くはありませんでした。より重要なのは、強化学習の前後で挙動が大きく変わっていたことです。後期訓練がこのスタイルを増幅していました。

つまり問題は「データに何があるか」だけではなく、訓練過程が何を報酬したかにあります。

強化学習が文体の偏りを増幅した

OpenAI の分析では、重要な変化は強化学習段階で起きていました。GPT-5.5 は、より生き生きして、識別しやすく、人格があるように見える書き方を学びました。そして、軽い冗談めいた語がそのスタイルにうまく合っていました。

簡単に言うと、モデルは次のような傾向を学んだ可能性があります。

個性のある回答は好まれやすい。
技術的な問題を軽い比喩で説明すると評価が良くなりやすい。
特定の語は、かわいさ、機転、遊び心を加える。
こうした局所的な報酬が訓練で増幅される。

その結果、モデルは頻繁に使えと明示されたわけではないのに、特定の場面で安定してその語を使うようになりました。

原因は Nerdy ペルソナだった

データをたどると、OpenAI はすぐに具体的な分岐を見つけました。パーソナライズ設定の Nerdy ペルソナです。

このモードの目的は、AI を「オタク気質のチューター」にすることでした。熱心で、機知があり、知識と批判的思考を重んじ、なおかつ堅苦しすぎない。人間から見ると、求めていることは明確です。ギークらしさとユーモアです。

しかしモデルは、ユーモアの境界を本当に理解しているわけではありません。強化学習のフィードバックの中で、goblin のような比喩を使うと、軽妙で、賢く、Nerdy らしく見え、高得点を取りやすいという近道を学びました。

数字にも表れています。GPT-5.2 から GPT-5.4 にかけて、デフォルト人格での goblin 出現頻度の変化は -3.2% にすぎませんでした。一方、Nerdy 人格では 3881.4% も増えました。さらに、Nerdy モードは ChatGPT の全会話の 2.5% しか占めないのに、goblin 使用量の 66.7% を生み出していました。

つまり問題は単語そのものではありません。報酬信号が「ユーモラスに見える」表現を固定された文体へ押し上げたのです。

Codex で目立った理由

Codex ではこの問題がより目立ちました。コード作業では、bug、テスト失敗、環境差、境界挙動が頻繁に出てきます。モデルはそれらを擬人化しやすくなります。

モデルが「このエラーは変だ」「このテストは不安定だ」「この挙動はいたずらっぽい」と軽く説明しようとすると、この種の語を選びやすくなります。積み重なると、ユーザーには固定口癖のように見えます。

OpenAI はその後、Codex のシステムプロンプトに抑制指示を追加し、この種の表現を避けるよう明示しました。これはモデルを再訓練するものではなく、製品側で挙動を抑える対応です。

この件が示すこと

この事例の要点は、特定の単語ではなく、モデルの挙動がどう形成されるかです。

少なくとも次の三点を示しています。

モデルの文体は、語料頻度だけでなく報酬信号から生まれうる。
訓練後期の小さな偏りが、安定した人格特性のように増幅されうる。
製品内のシステムプロンプトは問題を緩和できるが、モデル内部の傾向を消すわけではない。

これは大規模モデルのアラインメントで厄介な問題です。ユーザーは面白い回答を好みますが、面白さを強く最適化しすぎると、厳密な作業で軽く見えたり、反復的になったり、強すぎる癖が出たりします。

ユーザー側でできること

AI コーディングツールに固定された言い回しがある場合、必ずしもプロンプトの書き方が悪いとは限りません。モデル自身の訓練上の偏りから来ていることがあります。

緩和するには、次の方法があります。

システムプロンプトやプロジェクトルールで口調を明示する。
擬人化、スラング、過度な冗談を避けるよう指定する。
技術タスクでは「直接的、簡潔、エンジニアリング寄り」の回答スタイルを指定する。
特定の語が繰り返し出る場合は、明示的に禁止表現に入れる。

こうした制約はモデル内部の重みを変えるものではありませんが、実際の使用時のノイズは減らせます。

まとめ

GPT-5.5 の goblin 口癖は、単なる笑い話ではありません。報酬信号が文体を形作り、その文体が製品場面へ移り、最終的にユーザーが人格特性として感じるようになる、という大規模モデル訓練の深い問題を示しています。

モデル開発者にとって、この種の問題は訓練、評価、製品プロンプトの三層で扱う必要があります。一般ユーザーにとって実用的なのは、期待する文体を明確に書くことです。少し表演を減らし、安定性を増やすためです。

参考：

https://openai.com/index/where-the-goblins-came-from/

GPT 5.5、Claude Opus 4.7、DeepSeek V4、Qwen 3.6 Max はどう選ぶべきか

Tue, 28 Apr 2026 22:18:00 +0800

もし今すぐ一言だけ答えが欲しいなら、まずはこの形で覚えておけば十分です。

いちばん安定していて、時間も無駄にしにくいのは GPT 5.5
ページの見た目、創意、プレゼン感を重視するなら Claude Opus 4.7
中国系モデルの中で最前線にかなり近いのは Qwen 3.6 Max
DeepSeek V4 も弱くはないが、出力の波はやや大きい

「今いちばん強いコーディングAIはどれか」と聞く人は多いですが、実際にはランキングを知りたいというより、もっと現実的なことを知りたいはずです。
ページを書きたい、デモを作りたい、小さなツールを作りたい、インタラクションを足したい。そのとき最初の一回で使えるものを出してくれるのはどれか。

その視点で見ると、この数モデルの違いはかなりはっきりしています。

まず全体の判断

GPT 5.5、Claude Opus 4.7、DeepSeek V4、Qwen 3.6 Max を並べて見たとき、総合的にいちばん安定しているのはやはり GPT 5.5 です。

毎回いちばん派手というわけではありません。ただ、露骨にがっかりさせられることが少ないです。速度が速く、最初の生成物の完成度も高く、ロジック、インタラクション、動き、小さなゲームのような総合課題に強いです。

Claude Opus 4.7 は性格がかなり違います。最大の強みは安定感そのものではなく、ページの雰囲気、UIの整理、見せ方です。出てきたものを開いた瞬間に「見た目がちゃんとしている」と感じやすいタイプです。ページの見え方を重視するなら、今でもかなり魅力があります。

Qwen 3.6 Max は、この中でいちばん見直す価値が大きいモデルです。もはや「中国系モデルとしては使える」という段階ではありません。場面によっては GPT 5.5 と出力品質で正面から比べられるところまで来ています。特にフロントエンドのページ、見た目の完成度、擬似的なリアルさの部分では、かなり存在感が出てきました。

DeepSeek V4 は、できないわけではありません。問題は安定性です。うまくいくときは普通に良く、場面によってはかなり悪くありません。ただ、良いときと崩れるときの差が、他のモデルより見えやすいです。

`GPT 5.5` は何が強いのか

普段やりたいことが次のような内容なら、

完成したWebページをそのまま出したい
動きのある小さなデモを作りたい
少しロジックのあるインタラクティブなページを書きたい
ミニゲームや複数状態のUIを作りたい
なるべく手戻りを減らしたい

GPT 5.5 はやはり最も無難な答えです。

主な強みは次の通りです。

コード生成が速い
最初の出力の usable さが高い
ロジックやインタラクションで大きな傷を作りにくい
複合課題に対して安定している

もっと直截に言うと、GPT 5.5 は「要件を投げたら、まず土台を正しく組みやすい」タイプのモデルです。
多くの人が本当に欲しいのは、どこか一項目だけで最も驚く結果ではなく、最初の版が破綻しないことです。その点では今でもかなり安心できます。

もちろん弱みがないわけではありません。

ビジュアル寄りのページでは、いちばん驚きがあるとは限らない
安定しているぶん、デザイン面での強い記憶点が薄いこともある

なので、デフォルトで一つ選ぶなら GPT 5.5 です。
ただし、それだけ見ていれば十分という話でもありません。

`Claude Opus 4.7` はどんな人に向くか

Claude Opus 4.7 の魅力は、見た目の質感にあります。

長所として出やすいのは、

UI構成がきれい
ビジュアル表現がまとまりやすい
ページにプレゼン感が出やすい
可視化やデザイン面で個性が出やすい

もしモデルにやらせたいものが次のような内容なら、

デモページ
データ表示ページ
見た目の印象が重要な小規模ページ
開いた瞬間に完成品っぽく見えてほしいもの

Claude は今でもかなり有力です。

一方で弱みもはっきりしています。

GPT 5.5 ほど安定しない
見た目はよくても、細かいロジックがずれることがある
動くけれど、肝心の体験が少し外れる場面がある

つまり Claude は、美意識の強いフロントエンド寄りの選手という感じです。
ページがどう見えるかを最優先するならかなり魅力がありますが、最初の一回でロジック事故を避けたいなら少し慎重に見たほうがいいです。

なぜ `Qwen 3.6 Max` を真面目に見るべきか

この中で、勢いの変化をいちばん感じさせるのが Qwen 3.6 Max です。

少し前まで、中国系のコーディングAIを見るときは「そもそも追いつけるか」が主な論点でした。今の Qwen 3.6 Max では、問いそのものが変わっています。
フロントエンド寄りの直出しタスクで、海外トップモデルと正面から比べられるか。

今の強みはおおむね次の通りです。

ページの見た目が良い
動きや擬似的なリアルさをうまく出せる場面がある
出力に完成感がある
場面によっては GPT 5.5 にかなり近いところまで行く

これは大きいです。
Webページ、フロントエンド、見せるための出力が中心なら、Qwen 3.6 Max はもはや単なる予備候補ではありません。十分に主力候補として扱えます。

もちろんまだ弱みはあります。

インタラクション寄りのロジック課題では完成度が少し落ちることがある
かなり見栄えのいいページもあれば、急に平凡に感じる課題もある
ばらつきはまだ GPT 5.5 より大きい

それでも、今いちばん注目すべき中国系モデルはどれかと聞かれたら、Qwen 3.6 Max を外すのは難しいです。

`DeepSeek V4` は今どの位置にいるか

DeepSeek V4 の立ち位置は少し複雑です。

問題は、できないことではなく、どの水準で出てくるか読みづらいことです。
ちゃんと作れるときは、見た目も機能もそこそこ悪くありません。ですが、アニメーション、ロジック、データ表現を同時に求めるような課題になると、崩れやすさが出ます。

今の印象をまとめると、

能力はある
弱いわけではない
課題によっては普通に提出できる
ただし安定性はまだ心許ない

だから向いている人もはっきりします。

何度か試すことを気にしない人、たまにやり直しが入ってもいい人、自分でコードを見て直す前提の人なら、DeepSeek V4 はまだ十分使えます。
ですが、とにかく手間を減らしたい人、最初の一回の成功率を重視する人には、まだ最適解とは言いにくいです。

普通のユーザーは結局どう選ぶべきか

モデル比較そのものが目的ではなく、実際に作業を進めたいなら、用途で選ぶのがいちばん簡単です。

1. 手間を減らして、一回目の成功率を上げたい

GPT 5.5 を選ぶ。

「要件を渡すから、まず使える一版を返してほしい」という流れに最も向いています。
何度もやり取りしたり、細かく修正したりする時間がないときほど、その総合的な安定感が効いてきます。

2. ページの見た目や仕上がりを重視したい

Claude Opus 4.7 を選ぶ。

より完成品っぽく見えるページが欲しいなら、あるいはデモや見せるための制作が中心なら、Claude の長所はかなり分かりやすく出ます。

3. 中国系で最も強いフロントエンド直出し能力を見たい

Qwen 3.6 Max を優先する。

もう「妥協して使う」段階ではありません。正面から比べる価値があります。
タスクがWeb、動き、見た目重視に寄るなら、かなり現実的な選択肢です。

4. ばらつきを許容しつつ、中国系の総合力を追いたい

DeepSeek V4 を見続ける。

能力不足ではなく、出力の揃い方がまだ弱いという段階です。
この先、安定性が改善されれば、存在感はもっと強くなるはずです。

最後に一言

今の主流コーディングAIの差は、もう「書けるか、書けないか」ではありません。
「どれがより安定しているか」「どれがより見た目に強いか」「どれが自分の仕事に合っているか」の差です。

いちばん手堅い答えが欲しいなら、まだ GPT 5.5 が第一候補です。
見た目の仕上がりやプレゼン感を重視するなら、Claude Opus 4.7 はまだかなり魅力があります。
中国系の中で今いちばん真面目に見るべきものを挙げるなら、Qwen 3.6 Max はかなり前の位置にいます。
DeepSeek V4 は、まだ安定性を伸ばしている途中の有力選手という印象です。

最短でまとめるなら、

安定性なら GPT 5.5、見た目なら Claude、中国系で最も注目すべきは Qwen 3.6 Max。

DeepSeek V4 Pro と GPT-5.5 を比較：フロントエンド・文章作成・コード実測で見えた想像以上の差

Sat, 25 Apr 2026 11:12:00 +0800

DeepSeek V4 Pro と GPT-5.5 の比較は、最近ますます話題になりやすくなっています。もはや問題は「使えるかどうか」ではなく、フロントエンド、文章作成、コードという3つの高頻度な場面で、どちらが主力として向いているのかに移っています。

この手の比較では、まず「どちらが強いのか」と聞きたくなりがちです。
しかし本当に価値があるのは、たいてい別の問いです。実際のタスクの中で、どちらがより安定し、コミュニケーションコストが低く、そのまま次に進める成果を出しやすいのか。

まず結論を簡単に言えば、だいたい次のように考えられます。

よりバランスの取れた出力や、完成度の高いプロダクト体験を求めるなら、多くの人はまず GPT-5.5 を見る
中国語環境での高頻度な反復、コスト意識の高さ、応答スピードを重視するなら、DeepSeek V4 Pro は有力な候補になる
実際の体験を決めるのは、モデル名そのものよりも、タスクの種類、プロンプトの与え方、そしてその後も修正を続けるかどうかであることが多い

以下、代表的な3つの比較シーンに分けて見ていきます。

1. フロントエンドタスク：見るべきは「ページを書けるか」ではなく、「その後も直し続けられるか」

フロントエンド作業は、結果が目に見えやすいため、モデル比較に向いているように見えます。
ページが動くか、見た目が良いか、構造が整理されているかは、すぐに判断できます。

しかし本当の差は、最初の版が書けるかどうかよりも、むしろ次のような点に現れます。

構造は十分に明確か
コンポーネント分割は自然か
一か所を直したときに別の場所まで壊れないか
複数ラウンドの指示でも同じ実装方針を保てるか

だからこそ、初回の見た目が派手なフロントエンドデモでも、実際のワークフローに入れると必ずしも優位とは限りません。

たとえば次のようなタスクなら、

動くページのプロトタイプを素早く作る
ランディングページの案をまず形にする
必要なスタイル、ボタン、カード、フォームなどを埋める

どちらのモデルでもかなり近いところまでは持っていけることが多く、差は出力スタイルに現れやすいです。

しかしタスクが次のように変わると、

UI を何度も継続的に修正する
既存コードを読みながら続きを直す
コンポーネント構成、スタイルの一貫性、保守性を同時に考える
静的ページから実際のプロジェクトコードへ段階的に進める

見るべき点は「初回でどちらが見栄えが良いか」ではなく、「5ラウンド後でもどちらが崩れにくいか」になります。

つまりフロントエンド比較で本当に見るべきなのは、ページを生成できるかどうかではありません。制約を追加し続けても、構造の安定性、命名の一貫性、修正コストの低さを保てるかどうかです。

2. 文章作成タスク：比べるべきは文字数ではなく、文体の安定性とリライトのしやすさ

文章作成は、特に見誤りやすい領域のひとつです。

というのも、最初の出力だけを見れば、どちらもそれなりによく見えることが多いからです。
構成は整い、段落もそろい、文体も滑らかで、一見すると大差がないように感じます。

しかし、そこで一歩先まで進めると差が出てきます。

想定読者を正確に理解できるか
同じテーマで文体を切り替えられるか
リライト時に元の要点を落とさないか
要約、膨らませる作業、タイトル変更、構成変更でも安定しているか

文章作成で怖いのは「書けないこと」ではなく、「書けたように見えるのに、結局かなり直す必要があること」です。

そのため、DeepSeek V4 Pro と GPT-5.5 を比べるときは、単に1本ずつ記事を書かせるより、次のような連続テストのほうが実用的です。

まず初稿を書く
別のトーンで書き直す
もっと短い版に圧縮する
クリックを取りやすい見出し向け、あるいは検索流入向けに組み替える

その数ラウンドでも要点が散らず、表現がぶれず、構成が崩れないなら、そのモデルは実際の文章作成ワークフローでより高い価値を持ちます。

つまり文章作成で本当に比べるべきなのは「文才」ではなく、リライト能力、指示への従いやすさ、継続的な協業感です。

3. コードタスク：本当の差は長い作業チェーンでの安定性に出る

コード関連の作業は、フロントエンドよりもモデルの実力を露呈しやすい分野です。なぜなら、単に出力するだけではなく、現実のプロジェクトと接続しなければならないからです。

すぐに次のような問題にぶつかります。

既存のプロジェクト構造を理解できるか
複数ファイルを同時に修正できるか
修正後に新しい問題を持ち込まないか
エラーやログを追ってデバッグを続けられるか
数ラウンド後でも、すでに何をやったか覚えているか

この種のタスクでユーザーが本当に気にするのは、単体のコード片が美しいかどうかではありません。作業を継続的に前へ進められるか、それとも後片付けを自分がしなければならないのかです。

だから DeepSeek V4 Pro と GPT-5.5 を比較するとき、本当に見るべきなのは単発のコード問題ではなく、次のような実務に近い流れです。

既存のリポジトリを読む
バグを見つける
関連する複数ファイルを修正する
エラーに基づいてさらに直す
最後に結果を整理して説明する

タスクがこのような連続進行型になるほど、コンテキスト保持力、実行の癖、説明の質、手戻り率は、単発の回答品質よりも重要になります。

そのため、コード作業では「ずっと1つのモデルだけを使う」という形ではなく、タスクの段階によって主力を切り替えるユーザーが多くなるのです。

4. 本当に比べるべきなのは勝敗ではなく、「どの種類のタスクを誰に任せると得か」

DeepSeek V4 Pro と GPT-5.5 を並べて、ただ総合チャンピオンを決めようとしても、結局は中身の薄い結論になりがちです。

現実のタスクは同じ問題ではないからです。

単発生成もある
複数ラウンドの協業もある
中国語での文章作成もある
エンジニアリング変更もある
速度重視もある
安定性重視もある
コスト重視もある

だから、実際の使い方に近いのは、タスクの目的ごとに考えることです。

より完成度の高い総合体験、成熟した対話、安定した汎用出力を求めるなら、まず GPT-5.5
中国語環境で高頻度に試行錯誤し、素早く反復し、費用対効果も重視するなら、DeepSeek V4 Pro を本格的にワークフローへ入れる価値がある
タスク自体が長いチェーン、多段階修正、複数人協業なら、初回結果だけで判断せず、5ラウンド後も安定しているかを見るべき

言い換えれば、本当に問うべきなのは「どちらが絶対的に強いか」ではなく、
フロントエンド、文章作成、コードという3種類のタスクで、いまの自分にとってどちらがより手になじむ道具かということです。

5. ちゃんと意味のある比較をするには

自分で DeepSeek V4 Pro と GPT-5.5 を試すなら、1ラウンドだけで判断するより、次のようなやり方のほうがずっと信頼できます。

両方に同じ初期要件を与える
制約条件をそろえる
3〜5ラウンド連続で追質問する
出力品質、脱線回数、手戻り量を記録する
最後に速度、コスト、最終的な使いやすさを比較する

こうして得た結果のほうが、「最初にどちらが派手だったか」よりも、実際の仕事に近い判断材料になります。

特にフロントエンド、文章作成、コードのような分野では、体験を決めるのはスタートの派手さではなく、最後まで一緒に仕事を進められるかどうかです。

6. まずはこう覚えておけばよい

ひとまず使える形で覚えるなら、次のようにまとめられます。

GPT-5.5：総合型で、製品として洗練された、標準的な作業台に近い
DeepSeek V4 Pro：中国語環境や高頻度な試行錯誤で、日常ワークフローに入れる価値が高い競争相手
本当の比較ポイント：初回の派手さではなく、複数ラウンド後の安定性と手間の少なさ

この種の比較で本当に重要なのは、決して「誰が勝ったか」だけではありません。
自分のフロントエンド、文章作成、コードのタスクにおいて、どちらを使うと継続的に前へ進みやすく、手戻りが少なく、安定して成果を出せるかです。

OpenAI が GPT-5.5 を発表：より強力なエージェント型コーディング、知識作業、研究支援

Fri, 24 Apr 2026 08:39:56 +0800

OpenAI は 2026 年 4 月 23 日に Introducing GPT-5.5 を公開しました。公式ページを見る限り、今回の更新は単に「モデルが賢くなった」という話ではなく、複雑なタスクをどこまで継続して進められるかに重点があります。

OpenAI は GPT-5.5 を、実際の仕事により適したモデルとして位置づけています。質問に答えるだけでなく、コードを書き、デバッグし、情報を調べ、データを分析し、文書やスプレッドシートを作成し、ソフトウェアを操作し、複数のツールを行き来しながらタスクを完了することが期待されています。

1. GPT-5.5 はどこが強いのか

今回の発表ページで繰り返し強調されている方向性は、大きく次の 4 つです。

エージェント型コーディング
コンピューター操作とツール利用
知識作業
初期段階の科学研究支援

つまり、GPT-5.5 の重点は短い質疑応答ではなく、より長い流れを持つタスクです。たとえばエンジニアリング上の問題は、「このコードをどう直すか」だけではありません。プロジェクト構造を理解し、失敗原因を特定し、関連ファイルを修正し、テストを追加し、結果を検証し、ユーザーが何度も指示しなくても前に進める必要があります。

OpenAI は、GPT-5.5 が Codex のタスクでより少ない token を使うことも強調しています。これは実務上かなり重要です。コーディングエージェントは、ファイルを読み、コマンドを実行し、bug を直し始めると、token 消費がすぐに増えます。同じタスクを少ない手順で完了できれば、実際のコストと待ち時間の両方が下がります。

2. コーディング能力が今回の中心的な見せ場

OpenAI は GPT-5.5 を、現時点で最も強力な agentic coding モデルだと説明しています。

公開されている指標の中で、とくに注目したいものは次の通りです。

Terminal-Bench 2.0：GPT-5.5 は 82.7%
SWE-Bench Pro：GPT-5.5 は 58.6%
OpenAI 内部の Expert-SWE：GPT-5.5 は GPT-5.4 を上回る

これらの評価に共通しているのは、単一のアルゴリズム問題よりも、実際の開発フローに近いことです。特に Terminal-Bench のようなタスクでは、コマンドライン操作、計画、試行錯誤、ツール連携、複数ステップの検証が必要になります。

日常的に開発する人にとって、ここでの意味は明確です。モデルがより大きなタスクを受け止められるかどうかは、長時間コンテキストを保てるか、自分の仮説を検証できるか、いつテストを走らせるべきかを判断できるか、変更がどこに影響するかを理解できるかにかかっています。

Codex における GPT-5.5 の価値も、主にこうした振る舞いに表れます。コード断片を補完するだけのツールというより、エンジニアリング作業の一部を任せられる協力者に近づいています。

3. 知識作業が重要な利用シーンになっている

コードを書くことに加えて、OpenAI は今回 GPT-5.5 をより広いオフィス作業の文脈にも置いています。

公式発表では、GPT-5.5 は Codex で文書、スプレッドシート、スライド資料をよりうまく生成でき、業務調査、表計算モデル、ビジネス資料の整理にも向いているとされています。コンピューター操作能力と組み合わせると、その目標は単に助言することではなく、「情報を探す、内容を理解する、ツールを使う、出力を確認する、結果として整理する」という一連の流れに直接参加することです。

発表ページでは、OpenAI 社内ですでにソフトウェアエンジニアリング、財務、コミュニケーション、マーケティング、データサイエンス、プロダクト管理など、多くの部門で Codex が使われていることにも触れています。ここで注目すべきなのは個別の事例ではなく、OpenAI が Codex を開発者向けツールから汎用的な仕事用ツールへ広げようとしている点です。

ChatGPT では、GPT-5.5 Thinking が Plus、Pro、Business、Enterprise ユーザー向けに提供されます。GPT-5.5 Pro は、より難しい問題や高い正確性が必要な作業向けで、Pro、Business、Enterprise ユーザーが利用できます。

4. 研究能力は「答えがうまい」だけではない

GPT-5.5 は研究支援の面でも大きく紹介されています。

OpenAI は、遺伝学、定量生物学、バイオインフォマティクス、数学証明などの領域で改善があると述べています。ここで重要なのは、モデルが知識を暗記しているかどうかではなく、より現実の研究に近い問題を扱えるかどうかです。データを読み、異常を見つけ、分析方法を提案し、結果を解釈し、中間結果に基づいてさらに進める必要があります。

発表ページに登場する GeneBench と BixBench は、どちらも多段階の科学分析タスク寄りの評価です。OpenAI はさらに、カスタムハーネスを使った GPT-5.5 の内部版が Ramsey numbers に関する新しい証明の発見を助け、その証明が Lean で検証されたとも述べています。

こうした事例を「AI がすでに独立して研究できる」と単純に捉えるべきではありません。ただし、モデルが質問応答ツールから研究協力者へ近づいていることは示しています。特に、コード、データ、論文、実験アイデアが混ざる場面では、GPT-5.5 の長い推論とツール利用能力がより重要になります。

5. 推論効率：強くなっても大きく遅くならない

見落としやすい点として、OpenAI は GPT-5.5 の実運用における per-token latency が GPT-5.4 と同等だと説明しています。

通常、より大きく強力なモデルは高い遅延を伴います。今回 OpenAI は、推論システムの最適化によって、GPT-5.5 の能力を高めながら速度を維持したと強調しています。発表ページでは、Codex が本番トラフィックのパターンを分析し、負荷分散に関するヒューリスティックアルゴリズムを書いたことで、token 生成速度が 20% 以上向上したとも述べられています。

この点は興味深いところです。モデルはインフラに提供されるだけでなく、自分自身を提供するインフラの改善にも役立っているからです。

6. 安全対策はより厳しくなる、とくにサイバーセキュリティ領域

GPT-5.5 はサイバーセキュリティ能力も強くなっているため、OpenAI は安全制限も同時に強化しています。

公式説明では、GPT-5.5 はサイバーセキュリティ能力で GPT-5.4 より向上しているため、より厳格な分類器を導入するとされています。特に、高リスク活動、機微なサイバーセキュリティ関連リクエスト、繰り返しの悪用に対して厳しくなります。

そのため、一部のユーザーはサイバーセキュリティ関連の作業で、より多くの拒否や制限に遭遇する可能性があります。OpenAI は Trusted Access for Cyber も用意しており、検証済みの防御目的のユーザーが不要な制限を受けにくくする仕組みを提供しています。

一般的な開発者にとっては、合法的なセキュリティ強化、脆弱性修正、コード監査は引き続き支援される一方、高リスクな攻撃フローはより厳しく制御される、と理解すればよさそうです。

7. 利用可能範囲と API 価格

OpenAI の発表ページによると、GPT-5.5 の利用可能範囲は次の通りです。

ChatGPT：GPT-5.5 Thinking は Plus、Pro、Business、Enterprise ユーザー向け
ChatGPT：GPT-5.5 Pro は Pro、Business、Enterprise ユーザー向け
Codex：GPT-5.5 は Plus、Pro、Business、Enterprise、Edu、Go プラン向け
Codex：コンテキストウィンドウは 400K
Codex Fast mode：生成速度は約 1.5x、コストは 2.5x

API については、OpenAI は gpt-5.5 と gpt-5.5-pro を近く提供するとしています。

公式に示された API 価格は次の通りです。

gpt-5.5：入力 5 米ドル / 1M tokens、出力 30 米ドル / 1M tokens
gpt-5.5-pro：入力 30 米ドル / 1M tokens、出力 180 米ドル / 1M tokens
gpt-5.5 API のコンテキストウィンドウは 1M
Batch と Flex は標準 API 価格の半額
Priority processing は標準価格の 2.5x

この価格は多くの日常用途向けモデルより明らかに高いため、普通の雑談よりも、複雑な工程変更、長文書分析、オフィス自動化、研究支援、重要な業務フローのような高価値タスクに向いています。

8. 今回の発表をどう見るか

一言で言えば、GPT-5.5 の重点は、OpenAI がモデルを「質問に答えるもの」から「仕事を完了するもの」へさらに進めていることです。

注目すべきなのは benchmark の点数だけではありません。いくつかの能力が合流し始めています。

より強い長時間タスク維持能力
より安定したツール利用
より良いエンジニアリング文脈理解
文書、スプレッドシート、研究、業務フローへの適性
より長いコンテキストと高い token 効率
高リスク能力に対するより厳格な制御

開発者にとって最も試す価値があるのは、Codex での複雑なエンジニアリングタスクです。企業ユーザーにとっては、ツール、文書、業務プロセスをまたぐ一部の作業を、実際に納品できる成果物へ変えられるかが重要になります。

GPT-5.5 は、チャット体験だけを対象にした小さな更新ではありません。OpenAI が「仕事の実行層としての AI」をさらに進める一歩に見えます。

GPT 5.5 on KnightLiブログ

GPT-5.5 Prompt 移行ガイド：古いプロンプトはまず削ってから直す

古い prompt をなぜ書き直す必要があるのか

outcome-first：まず完了条件を定義する

絶対ルールを減らし、判断ルールを書く

retrieval budget を設定する

reasoning effort を最初から上げない

text.verbosity は出力を制御するが、思考を制御するわけではない

preamble と phase：長いタスクを見えるようにする

モデルに自分の作業を検証させる

GPT-5.5 に向いた prompt 骨格

古い prompt を移行する実際の順序

古い prompt 移行チェックリスト

GPT-5.5 prompt 例：旧 vs 新

パラメータの組み合わせ

残すべきルール

誤って削ってはいけないもの

まとめ

参考資料

GPT-5.5、GPT-5.4、GPT-5.3-Codex はどう使い分けるべきか

3 つのモデルの位置づけ

用途別にどう選ぶか

クレジット消費はどれくらい違うか

Codex での利用制限の違い

よくある場面ではどう選ぶか

1. 日常の Q&A、資料整理、長文要約

2. 技術概念の説明、コード解説、古いプロジェクトの読解

3. スクリプト、小ツール、SQL、Shell、正規表現

4. バグ修正、小機能追加、テスト補完、通常開発

5. 複雑なリファクタリング、設計検討、難しいデバッグ

6. 大量の軽作業、反復作業、サブタスク分割

7. 自動化パイプライン、エージェント実行、継続的なリポジトリ操作

8. 重要ページの文章、ブランド紹介、最終仕上げ

9. 固定テンプレートの記事リライト、翻訳、SEO 説明文

10. EC 商品文案、カテゴリページ、大量コンテンツ運用

最後にどう使い分けるか

まとめ

GPT-5.5、GPT-5.5 Instant、GPT-5.5 Thinking、GPT-5.5 Pro の違い

早見表

GPT-5.5 とは何か

GPT-5.5 Instant：デフォルト、高速、日常向け

GPT-5.5 Thinking：複雑タスクの主力

GPT-5.5 Pro：研究級で、より重く、より厳密

ツール対応の違い

コンテキストウィンドウの違い

どう選ぶか

日常 Q&A

記事作成、要約、メール修正

コード作成とデバッグ

研究と資料分析

画像生成、Canvas、Memory が必要な場合

短い結論

関連リンク

ChatGPT Release Notes から見る OpenAI のプロダクトリズム

最新重点1：記憶ソースが見えるようになる

パーソナライズは「より分かってくれる」だけではない

最新重点2：GPT-5.5 Instant がデフォルトモデルに

最新重点3：ChatGPT が Excel と Google Sheets に入る

4月末の下地：安全性とモデル選択

4月下旬のもう一つの方向：より速い通常回答

プロダクトリズムの変化

短い判断

関連リンク

ChatGPT Release Notes 更新：記憶ソース、GPT-5.5 Instant、表計算アドイン

Memory sources：パーソナライズをより透明に

記憶の制御は依然として重要

GPT-5.5 Instant がデフォルトモデルに

パーソナライズとデフォルトモデルがつながる

ChatGPT for Excel と Google Sheets

利用制限とインストール方法

最近の更新の流れ

短い判断

関連リンク

GPT-5.5 Instant 公開：ChatGPT のデフォルトモデルはより正確で短く、より個人に合うように

デフォルトモデルが重要な理由

幻覚が少なく、より信頼できる回答

日常タスク能力の強化

回答は短くなるが、薄くなるわけではない

パーソナライズ能力も強化

Memory sources でパーソナライズを見えるようにする

`GPT 5.5` は何が強いのか

`Claude Opus 4.7` はどんな人に向くか

なぜ `Qwen 3.6 Max` を真面目に見るべきか

`DeepSeek V4` は今どの位置にいるか