<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>速率限制 on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/%E9%80%9F%E7%8E%87%E9%99%90%E5%88%B6/</link>
        <description>Recent content in 速率限制 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Mon, 29 Jun 2026 05:04:40 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/%E9%80%9F%E7%8E%87%E9%99%90%E5%88%B6/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Claude API 限額上調：Start、Build、Scale 新分層該怎麼看</title>
        <link>https://knightli.com/zh-tw/2026/06/29/claude-api-rate-limits-rpm-itpm-otpm-429/</link>
        <pubDate>Mon, 29 Jun 2026 05:04:40 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/06/29/claude-api-rate-limits-rpm-itpm-otpm-429/</guid>
        <description>&lt;p&gt;Anthropic 在 2026 年 6 月 26 日更新了 Claude Platform release notes：Claude API 的 rate limits 上調，Claude Sonnet 和 Claude Haiku 的限額現在會在各個 usage tier 上對齊 Claude Opus；原來的 usage tiers 也被合併成三個更簡單的層級：&lt;code&gt;Start&lt;/code&gt;、&lt;code&gt;Build&lt;/code&gt;、&lt;code&gt;Scale&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;官方說法是：大多數組織會進入更高層級，沒有組織會拿到比以前更低的限額，也不需要開發者手動操作。你可以在 Claude Console 裡查看自己的 tier 和目前 limits。&lt;/p&gt;
&lt;p&gt;發布說明：&lt;/p&gt;
&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://platform.claude.com/docs/en/release-notes/overview&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://platform.claude.com/docs/en/release-notes/overview&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Rate limits 文件：&lt;/p&gt;
&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://platform.claude.com/docs/en/api/rate-limits&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://platform.claude.com/docs/en/api/rate-limits&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Rate Limits API 文件：&lt;/p&gt;
&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://platform.claude.com/docs/en/api/rate-limits-api&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://platform.claude.com/docs/en/api/rate-limits-api&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&#34;這次更新最重要的點&#34;&gt;這次更新最重要的點
&lt;/h2&gt;&lt;p&gt;如果你只是日常用 Claude API 寫腳本、做小工具，可能一時感覺不到變化。但如果你在跑 Claude Code、AI Agent、批次摘要、RAG 問答或後端佇列，這次更新值得看一眼。&lt;/p&gt;
&lt;p&gt;變化可以拆成三句話：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Claude API 的整體限額上調了。&lt;/li&gt;
&lt;li&gt;Sonnet 和 Haiku 的限額，在每個 usage tier 上對齊 Opus。&lt;/li&gt;
&lt;li&gt;usage tiers 簡化為 &lt;code&gt;Start&lt;/code&gt;、&lt;code&gt;Build&lt;/code&gt;、&lt;code&gt;Scale&lt;/code&gt;。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;這代表什麼？過去一些開發者可能會覺得 Opus、Sonnet、Haiku 的限額口徑不太一樣，做模型切換時要額外檢查。現在分層和模型限額更容易理解，對多模型應用、Agent 產品和內部平台會友好一些。&lt;/p&gt;
&lt;p&gt;但這不等於可以隨便開並發。Claude API 仍然會按請求數、輸入 token、輸出 token 和流量成長速度限制請求。&lt;/p&gt;
&lt;h2 id=&#34;為什麼這條新聞對開發者有用&#34;&gt;為什麼這條新聞對開發者有用
&lt;/h2&gt;&lt;p&gt;很多人接 Claude API，真正卡住的不是「模型會不會回答」，而是上線後突然遇到 &lt;code&gt;429&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;典型場景包括：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;本地腳本一次性丟幾百個檔案給 Claude 摘要。&lt;/li&gt;
&lt;li&gt;Agent 應用同時開很多工具呼叫和長上下文請求。&lt;/li&gt;
&lt;li&gt;RAG 系統把檢索結果、歷史對話和系統提示詞一起塞進 prompt。&lt;/li&gt;
&lt;li&gt;後端佇列消費太快，幾分鐘內把 token 打滿。&lt;/li&gt;
&lt;li&gt;失敗後自動重試，越重試越壅塞。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;這次 Anthropic 上調限額，確實能讓一部分任務跑得更順。但只要你的應用會放大請求，還是要認真處理 rate limit。限額提高是好消息，限流、排隊和重試策略仍然不能省。&lt;/p&gt;
&lt;h2 id=&#34;startbuildscale-怎麼理解&#34;&gt;Start、Build、Scale 怎麼理解
&lt;/h2&gt;&lt;p&gt;新的 usage tiers 變成三個層級：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;層級&lt;/th&gt;
          &lt;th&gt;更像適合誰&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Start&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;個人開發者、小腳本、早期原型&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Build&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;已經有穩定呼叫量的應用、團隊內部工具&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Scale&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;生產業務、高並發 Agent、批次處理和企業級整合&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;具體額度不要照搬文章裡的數字，應該以 Claude Console 和官方文件為準。Anthropic 的限額會根據帳戶、組織、workspace、模型和產品策略變化。&lt;/p&gt;
&lt;p&gt;更接地氣地說：如果你只是偶爾寫腳本，重點是別把並發開太大；如果你在做一個真實產品，重點是把 Claude 當成一個需要容量規劃的外部服務，而不是普通函式呼叫。&lt;/p&gt;
&lt;h2 id=&#34;還是要看-rpmitpmotpm&#34;&gt;還是要看 RPM、ITPM、OTPM
&lt;/h2&gt;&lt;p&gt;Claude API 的 rate limits 不是只有「每分鐘多少次請求」。文件裡最常見的是三個指標：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;指標&lt;/th&gt;
          &lt;th&gt;含義&lt;/th&gt;
          &lt;th&gt;容易踩坑的場景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;RPM&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;requests per minute，每分鐘請求數&lt;/td&gt;
          &lt;td&gt;小請求太密、並發太高、自動重試太多&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;ITPM&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;input tokens per minute，每分鐘輸入 token&lt;/td&gt;
          &lt;td&gt;prompt 太長、上下文太大、RAG 結果塞太多&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;OTPM&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;output tokens per minute，每分鐘輸出 token&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;max_tokens&lt;/code&gt; 給太大、批量生成長文或程式碼&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;很多 &lt;code&gt;429&lt;/code&gt; 不是因為請求次數多，而是 token 多。比如每分鐘只發 10 個請求，但每個請求都帶幾十萬 token 的上下文，就可能先撞到 &lt;code&gt;ITPM&lt;/code&gt;。反過來，如果 prompt 很短，卻讓模型批量輸出長報告，就可能先撞到 &lt;code&gt;OTPM&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;所以排查時不要只看 API 呼叫次數。至少要記錄模型名、workspace、輸入 token、輸出 token、回應狀態和重試次數。&lt;/p&gt;
&lt;h2 id=&#34;agent-和批次處理更容易吃到紅利&#34;&gt;Agent 和批次處理更容易吃到紅利
&lt;/h2&gt;&lt;p&gt;這次限額上調，對普通聊天請求當然有幫助，但更明顯的受益者應該是 Agent 和批次處理任務。&lt;/p&gt;
&lt;p&gt;因為 Agent 的一次「使用者請求」背後，可能不是一次 Claude API 呼叫，而是一串呼叫：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;讀檔案。&lt;/li&gt;
&lt;li&gt;摘要上下文。&lt;/li&gt;
&lt;li&gt;呼叫工具。&lt;/li&gt;
&lt;li&gt;看工具結果。&lt;/li&gt;
&lt;li&gt;再規劃下一步。&lt;/li&gt;
&lt;li&gt;最後輸出結果。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果多個使用者同時使用，或者後端還在跑批次任務，token 很快就會上去。限額上調後，這類任務的餘量會更大，模型切換也更順。但生產環境仍然建議分通道：線上請求走低延遲通道，批次處理走佇列，長任務單獨限並發。&lt;/p&gt;
&lt;h2 id=&#34;429-不要只怪模型&#34;&gt;429 不要只怪模型
&lt;/h2&gt;&lt;p&gt;遇到 &lt;code&gt;429&lt;/code&gt;，先別急著換模型，也別直接把重試次數拉滿。更實用的排查順序是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;看錯誤訊息，確認是 rate limit、quota 還是其他限制。&lt;/li&gt;
&lt;li&gt;看回應標頭裡的 limit、remaining、reset 等欄位。&lt;/li&gt;
&lt;li&gt;統計最近一分鐘的 &lt;code&gt;RPM&lt;/code&gt;、&lt;code&gt;ITPM&lt;/code&gt;、&lt;code&gt;OTPM&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;看是否有前端、後端、佇列、SDK 同時重試。&lt;/li&gt;
&lt;li&gt;看後端任務是否和使用者請求共用同一個組織或 workspace。&lt;/li&gt;
&lt;li&gt;看最近是否突然放量，觸發了 acceleration limits。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Anthropic 文件裡也提到，短時間流量突然上升可能觸發 acceleration limits。也就是說，即使平均請求量看起來沒那麼誇張，只要成長太猛，也可能被限。&lt;/p&gt;
&lt;p&gt;上線新功能時，最好逐步放量。比如先給 5% 使用者開，再看 &lt;code&gt;429&lt;/code&gt;、延遲、token 消耗和成本曲線，而不是一次性把所有流量打到 Claude API。&lt;/p&gt;
&lt;h2 id=&#34;rate-limits-api-可以接到監控裡&#34;&gt;Rate Limits API 可以接到監控裡
&lt;/h2&gt;&lt;p&gt;Anthropic 還提供 Rate Limits API，用來查詢組織和 workspace 的限額配置。這個接口適合接到內部監控、管理後台或維運腳本裡。&lt;/p&gt;
&lt;p&gt;它的用處主要有幾個：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;部署前確認目前 workspace 的限額。&lt;/li&gt;
&lt;li&gt;給不同業務線展示可用容量。&lt;/li&gt;
&lt;li&gt;解釋為什麼測試環境能跑、生產環境會 &lt;code&gt;429&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;根據目前限制調整佇列並發。&lt;/li&gt;
&lt;li&gt;做容量告警，而不是等使用者報錯。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;但它不應該替代應用自己的限流。業務程式碼裡仍然要有佇列、並發上限、指數退避和最大重試次數。&lt;/p&gt;
&lt;h2 id=&#34;現在應該怎麼改自己的程式碼&#34;&gt;現在應該怎麼改自己的程式碼
&lt;/h2&gt;&lt;p&gt;如果你已經在用 Claude API，可以先做幾件很實際的事：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;去 Claude Console 看自己的 tier 是否已經變成 &lt;code&gt;Start&lt;/code&gt;、&lt;code&gt;Build&lt;/code&gt; 或 &lt;code&gt;Scale&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;確認常用模型的目前 rate limits，不要靠舊截圖或舊文件記憶。&lt;/li&gt;
&lt;li&gt;把並發數、每分鐘請求數和最大輸出 token 做成配置項。&lt;/li&gt;
&lt;li&gt;給批次處理任務加佇列，不要直接 &lt;code&gt;for&lt;/code&gt; 迴圈猛打 API。&lt;/li&gt;
&lt;li&gt;對 &lt;code&gt;429&lt;/code&gt; 做指數退避，並限制最大重試次數。&lt;/li&gt;
&lt;li&gt;記錄輸入 token、輸出 token、模型名、workspace 和請求耗時。&lt;/li&gt;
&lt;li&gt;如果有長上下文重複使用，評估 prompt caching，但別把快取當成完全不占限額。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;這次更新是一個明確利好：Claude API 的容量更寬了，usage tier 也更好懂了。對開發者來說，真正的動作不是「放心猛衝」，而是趁著限額變寬，把自己的呼叫鏈、監控和重試策略整理清楚。這樣限額上調帶來的餘量，才會變成穩定性，而不是更快撞到下一堵牆。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
