<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>速率限制 on KnightLi的博客</title>
        <link>https://knightli.com/tags/%E9%80%9F%E7%8E%87%E9%99%90%E5%88%B6/</link>
        <description>Recent content in 速率限制 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Mon, 29 Jun 2026 05:04:40 +0800</lastBuildDate><atom:link href="https://knightli.com/tags/%E9%80%9F%E7%8E%87%E9%99%90%E5%88%B6/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Claude API 限额上调：Start、Build、Scale 新分层该怎么看</title>
        <link>https://knightli.com/2026/06/29/claude-api-rate-limits-rpm-itpm-otpm-429/</link>
        <pubDate>Mon, 29 Jun 2026 05:04:40 +0800</pubDate>
        
        <guid>https://knightli.com/2026/06/29/claude-api-rate-limits-rpm-itpm-otpm-429/</guid>
        <description>&lt;p&gt;Anthropic 在 2026 年 6 月 26 日更新了 Claude Platform release notes：Claude API 的 rate limits 上调，Claude Sonnet 和 Claude Haiku 的限额现在会在各个 usage tier 上对齐 Claude Opus；原来的 usage tiers 也被合并成三个更简单的层级：&lt;code&gt;Start&lt;/code&gt;、&lt;code&gt;Build&lt;/code&gt;、&lt;code&gt;Scale&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;官方说法是：大多数组织会进入更高层级，没有组织会拿到比以前更低的限额，也不需要开发者手动操作。你可以在 Claude Console 里查看自己的 tier 和当前 limits。&lt;/p&gt;
&lt;p&gt;发布说明：&lt;/p&gt;
&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://platform.claude.com/docs/en/release-notes/overview&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://platform.claude.com/docs/en/release-notes/overview&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Rate limits 文档：&lt;/p&gt;
&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://platform.claude.com/docs/en/api/rate-limits&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://platform.claude.com/docs/en/api/rate-limits&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Rate Limits API 文档：&lt;/p&gt;
&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://platform.claude.com/docs/en/api/rate-limits-api&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://platform.claude.com/docs/en/api/rate-limits-api&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&#34;这次更新最重要的点&#34;&gt;这次更新最重要的点
&lt;/h2&gt;&lt;p&gt;如果你只是日常用 Claude API 写脚本、做小工具，可能一时感觉不到变化。但如果你在跑 Claude Code、AI Agent、批量总结、RAG 问答或后台队列，这次更新值得看一眼。&lt;/p&gt;
&lt;p&gt;变化可以拆成三句话：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Claude API 的整体限额上调了。&lt;/li&gt;
&lt;li&gt;Sonnet 和 Haiku 的限额，在每个 usage tier 上对齐 Opus。&lt;/li&gt;
&lt;li&gt;usage tiers 简化为 &lt;code&gt;Start&lt;/code&gt;、&lt;code&gt;Build&lt;/code&gt;、&lt;code&gt;Scale&lt;/code&gt;。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这意味着什么？过去一些开发者可能会觉得 Opus、Sonnet、Haiku 的限额口径不太一样，做模型切换时要额外检查。现在分层和模型限额更容易理解，对多模型应用、Agent 产品和内部平台会友好一些。&lt;/p&gt;
&lt;p&gt;但这不等于可以随便开并发。Claude API 仍然会按请求数、输入 token、输出 token 和流量增长速度限制请求。&lt;/p&gt;
&lt;h2 id=&#34;为什么这条新闻对开发者有用&#34;&gt;为什么这条新闻对开发者有用
&lt;/h2&gt;&lt;p&gt;很多人接 Claude API，真正卡住的不是“模型会不会回答”，而是上线后突然遇到 &lt;code&gt;429&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;典型场景包括：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;本地脚本一次性丢几百个文件给 Claude 总结。&lt;/li&gt;
&lt;li&gt;Agent 应用同时开很多工具调用和长上下文请求。&lt;/li&gt;
&lt;li&gt;RAG 系统把检索结果、历史对话和系统提示词一起塞进 prompt。&lt;/li&gt;
&lt;li&gt;后台队列消费太快，几分钟内把 token 打满。&lt;/li&gt;
&lt;li&gt;失败后自动重试，越重试越拥堵。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这次 Anthropic 上调限额，确实能让一部分任务跑得更顺。但只要你的应用会放大请求，还是要认真处理 rate limit。限额提高是好消息，限流、排队和重试策略仍然不能省。&lt;/p&gt;
&lt;h2 id=&#34;startbuildscale-怎么理解&#34;&gt;Start、Build、Scale 怎么理解
&lt;/h2&gt;&lt;p&gt;新的 usage tiers 变成三个层级：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;层级&lt;/th&gt;
          &lt;th&gt;更像适合谁&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Start&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;个人开发者、小脚本、早期原型&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Build&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;已经有稳定调用量的应用、团队内部工具&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Scale&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;生产业务、高并发 Agent、批处理和企业级集成&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;具体额度不要照搬文章里的数字，应该以 Claude Console 和官方文档为准。Anthropic 的限额会根据账户、组织、workspace、模型和产品策略变化。&lt;/p&gt;
&lt;p&gt;更接地气地说：如果你只是偶尔写脚本，重点是别把并发开太大；如果你在做一个真实产品，重点是把 Claude 当成一个需要容量规划的外部服务，而不是普通函数调用。&lt;/p&gt;
&lt;h2 id=&#34;还是要看-rpmitpmotpm&#34;&gt;还是要看 RPM、ITPM、OTPM
&lt;/h2&gt;&lt;p&gt;Claude API 的 rate limits 不是只有“每分钟多少次请求”。文档里最常见的是三个指标：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;指标&lt;/th&gt;
          &lt;th&gt;含义&lt;/th&gt;
          &lt;th&gt;容易踩坑的场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;RPM&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;requests per minute，每分钟请求数&lt;/td&gt;
          &lt;td&gt;小请求太密、并发太高、自动重试太多&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;ITPM&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;input tokens per minute，每分钟输入 token&lt;/td&gt;
          &lt;td&gt;prompt 太长、上下文太大、RAG 结果塞太多&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;OTPM&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;output tokens per minute，每分钟输出 token&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;max_tokens&lt;/code&gt; 给太大、批量生成长文或代码&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;很多 429 不是因为请求次数多，而是 token 多。比如每分钟只发 10 个请求，但每个请求都带几十万 token 的上下文，就可能先撞到 &lt;code&gt;ITPM&lt;/code&gt;。反过来，如果 prompt 很短，却让模型批量输出长报告，就可能先撞到 &lt;code&gt;OTPM&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;所以排查时不要只看接口调用次数。至少要记录模型名、workspace、输入 token、输出 token、响应状态和重试次数。&lt;/p&gt;
&lt;h2 id=&#34;agent-和批处理更容易吃到红利&#34;&gt;Agent 和批处理更容易吃到红利
&lt;/h2&gt;&lt;p&gt;这次限额上调，对普通聊天请求当然有帮助，但更明显的受益者应该是 Agent 和批处理任务。&lt;/p&gt;
&lt;p&gt;因为 Agent 的一次“用户请求”背后，可能不是一次 Claude API 调用，而是一串调用：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;读文件。&lt;/li&gt;
&lt;li&gt;总结上下文。&lt;/li&gt;
&lt;li&gt;调工具。&lt;/li&gt;
&lt;li&gt;看工具结果。&lt;/li&gt;
&lt;li&gt;再规划下一步。&lt;/li&gt;
&lt;li&gt;最后输出结果。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果多个用户同时使用，或者后台还在跑批量任务，token 很快就会上去。限额上调后，这类任务的余量会更大，模型切换也更顺。但生产环境仍然建议分通道：在线请求走低延迟通道，批处理走队列，长任务单独限并发。&lt;/p&gt;
&lt;h2 id=&#34;429-不要只怪模型&#34;&gt;429 不要只怪模型
&lt;/h2&gt;&lt;p&gt;遇到 &lt;code&gt;429&lt;/code&gt;，先别急着换模型，也别直接把重试次数拉满。更实用的排查顺序是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;看错误信息，确认是 rate limit、quota 还是其他限制。&lt;/li&gt;
&lt;li&gt;看响应头里的 limit、remaining、reset 等字段。&lt;/li&gt;
&lt;li&gt;统计最近一分钟的 &lt;code&gt;RPM&lt;/code&gt;、&lt;code&gt;ITPM&lt;/code&gt;、&lt;code&gt;OTPM&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;看是否有前端、后端、队列、SDK 同时重试。&lt;/li&gt;
&lt;li&gt;看后台任务是否和用户请求共用同一个组织或 workspace。&lt;/li&gt;
&lt;li&gt;看最近是否突然放量，触发了 acceleration limits。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Anthropic 文档里也提到，短时间流量突然上升可能触发 acceleration limits。也就是说，即使平均请求量看起来没那么夸张，只要增长太猛，也可能被限。&lt;/p&gt;
&lt;p&gt;上线新功能时，最好逐步放量。比如先给 5% 用户开，再看 429、延迟、token 消耗和成本曲线，而不是一次性把所有流量打到 Claude API。&lt;/p&gt;
&lt;h2 id=&#34;rate-limits-api-可以接到监控里&#34;&gt;Rate Limits API 可以接到监控里
&lt;/h2&gt;&lt;p&gt;Anthropic 还提供 Rate Limits API，用来查询组织和 workspace 的限额配置。这个接口适合接到内部监控、管理后台或运维脚本里。&lt;/p&gt;
&lt;p&gt;它的用处主要有几个：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;部署前确认当前 workspace 的限额。&lt;/li&gt;
&lt;li&gt;给不同业务线展示可用容量。&lt;/li&gt;
&lt;li&gt;解释为什么测试环境能跑、生产环境会 429。&lt;/li&gt;
&lt;li&gt;根据当前限制调整队列并发。&lt;/li&gt;
&lt;li&gt;做容量告警，而不是等用户报错。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;但它不应该替代应用自己的限流。业务代码里仍然要有队列、并发上限、指数退避和最大重试次数。&lt;/p&gt;
&lt;h2 id=&#34;现在应该怎么改自己的代码&#34;&gt;现在应该怎么改自己的代码
&lt;/h2&gt;&lt;p&gt;如果你已经在用 Claude API，可以先做几件很实际的事：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;去 Claude Console 看自己的 tier 是否已经变成 &lt;code&gt;Start&lt;/code&gt;、&lt;code&gt;Build&lt;/code&gt; 或 &lt;code&gt;Scale&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;确认常用模型的当前 rate limits，不要靠旧截图或旧文档记忆。&lt;/li&gt;
&lt;li&gt;把并发数、每分钟请求数和最大输出 token 做成配置项。&lt;/li&gt;
&lt;li&gt;给批处理任务加队列，不要直接 &lt;code&gt;for&lt;/code&gt; 循环猛打 API。&lt;/li&gt;
&lt;li&gt;对 &lt;code&gt;429&lt;/code&gt; 做指数退避，并限制最大重试次数。&lt;/li&gt;
&lt;li&gt;记录输入 token、输出 token、模型名、workspace 和请求耗时。&lt;/li&gt;
&lt;li&gt;如果有长上下文重复使用，评估 prompt caching，但别把缓存当成完全不占限额。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这次更新是一个明确利好：Claude API 的容量更宽了，usage tier 也更好懂了。对开发者来说，真正的动作不是“放心猛冲”，而是趁着限额变宽，把自己的调用链、监控和重试策略整理清楚。这样限额上调带来的余量，才会变成稳定性，而不是更快撞到下一堵墙。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
