<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>AI基础设施 on KnightLi的博客</title>
        <link>https://knightli.com/tags/ai%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD/</link>
        <description>Recent content in AI基础设施 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Sat, 16 May 2026 21:02:33 +0800</lastBuildDate><atom:link href="https://knightli.com/tags/ai%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>AI 数据中心为什么重新推高机械硬盘需求</title>
        <link>https://knightli.com/2026/05/16/ai-data-center-hdd-storage-demand/</link>
        <pubDate>Sat, 16 May 2026 21:02:33 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/16/ai-data-center-hdd-storage-demand/</guid>
        <description>&lt;p&gt;过去两年，AI 基础设施的讨论大多集中在 GPU、HBM、先进封装和电力供应上。但在训练和推理系统背后，还有一个更容易被忽略的瓶颈：存储。&lt;/p&gt;
&lt;p&gt;大模型不是只在显卡里完成一次计算就结束。训练过程中会不断产生 checkpoint、优化器状态、训练日志、数据版本和中间结果；推理阶段也会产生用户交互记录、合规留存、审计数据和系统日志。这些数据不一定都要放在最快的介质上，但它们往往不能立刻删除。&lt;/p&gt;
&lt;p&gt;这就是机械硬盘重新变重要的原因。&lt;/p&gt;
&lt;h2 id=&#34;ai-训练会制造大量冷数据&#34;&gt;AI 训练会制造大量冷数据
&lt;/h2&gt;&lt;p&gt;大模型训练需要定期保存 checkpoint。它可以理解成训练过程中的存档点：如果训练中途崩溃，系统可以从某个 checkpoint 恢复，而不是从头重跑。&lt;/p&gt;
&lt;p&gt;对大模型来说，一个 checkpoint 可能就是数 TB。一次完整训练持续数周甚至数月，中间可能保存大量 checkpoint。即便后续会清理一部分，训练过程、回溯、复现实验和模型审计仍然需要保留大量数据。&lt;/p&gt;
&lt;p&gt;除了 checkpoint，训练数据本身也在膨胀。高质量文本、图片、视频、代码数据需要清洗、去重、切分和版本管理。随着合成数据、强化学习数据和多模态数据进入训练流程，存储压力会继续增加。&lt;/p&gt;
&lt;p&gt;这些数据的特点是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;容量巨大；&lt;/li&gt;
&lt;li&gt;不一定高频访问；&lt;/li&gt;
&lt;li&gt;需要长期保留；&lt;/li&gt;
&lt;li&gt;对单位容量成本非常敏感。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类数据并不适合全部放在昂贵的高速存储里。&lt;/p&gt;
&lt;h2 id=&#34;为什么不是全部用-ssd&#34;&gt;为什么不是全部用 SSD
&lt;/h2&gt;&lt;p&gt;SSD 的速度明显更快，但数据中心不能只看速度。对于 PB 级甚至更大规模的冷数据，单位容量成本会直接决定系统是否可持续。&lt;/p&gt;
&lt;p&gt;AI 集群里可以把存储分成几个层级：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;HBM 和显存负责最热、最紧急的数据；&lt;/li&gt;
&lt;li&gt;DRAM 负责临时周转；&lt;/li&gt;
&lt;li&gt;SSD 负责高频访问、低延迟需求更强的数据；&lt;/li&gt;
&lt;li&gt;HDD 负责海量冷数据、备份、日志、checkpoint 归档和长期留存。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;换句话说，SSD 不是不重要，而是不能替代所有层级。真正的大规模系统往往需要分层存储：热数据追求速度，冷数据追求容量、成本和可靠性。&lt;/p&gt;
&lt;p&gt;当 AI 公司开始长期保存训练残留、模型版本、合成数据、推理日志和审计记录时，HDD 的价值就重新被放大了。&lt;/p&gt;
&lt;h2 id=&#34;机械硬盘产能为什么会紧张&#34;&gt;机械硬盘产能为什么会紧张
&lt;/h2&gt;&lt;p&gt;机械硬盘市场过去多年增长并不亮眼，消费端电脑也越来越多转向 SSD。但数据中心的需求逻辑不同。&lt;/p&gt;
&lt;p&gt;云厂商和 AI 公司需要的是大容量、可预测交付、单位 TB 成本低的近线硬盘。对于硬盘厂商来说，这类客户通常会签长期供货协议，优先级也高于零散消费市场。&lt;/p&gt;
&lt;p&gt;这会带来几个结果：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;高容量企业盘产能被大客户提前锁定。&lt;/li&gt;
&lt;li&gt;消费级硬盘和普通渠道能分到的供应变少。&lt;/li&gt;
&lt;li&gt;新产能释放需要时间，短期内很难快速补上。&lt;/li&gt;
&lt;li&gt;机械硬盘从过去的低关注度硬件，变成 AI 基础设施的一部分。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;更关键的是，机械硬盘行业本身已经高度集中。主流供应商数量有限，先进大容量硬盘的产能爬坡也不是简单扩厂就能立刻完成。HAMR 等新技术可以提高单盘容量，但从技术量产到稳定大规模交付仍然需要周期。&lt;/p&gt;
&lt;h2 id=&#34;存储涨价会传导到消费端&#34;&gt;存储涨价会传导到消费端
&lt;/h2&gt;&lt;p&gt;AI 数据中心吸走的不只是 GPU 和电力，也会影响存储供应链。&lt;/p&gt;
&lt;p&gt;当企业级 SSD、内存、机械硬盘的产能更多流向云厂商和 AI 基础设施，消费级市场就可能感受到价格压力。普通用户看到的 SSD、内存或硬盘涨价，并不一定只是零售端波动，而可能来自上游产能重新分配。&lt;/p&gt;
&lt;p&gt;这种影响通常不是线性的。大客户签的是长期协议，价格、交付和产能安排更稳定；消费端则更容易承受现货市场波动。于是就会出现一种现象：AI 数据中心需求增长，最终让普通消费者买存储设备也变贵。&lt;/p&gt;
&lt;h2 id=&#34;投资视角需要更谨慎&#34;&gt;投资视角需要更谨慎
&lt;/h2&gt;&lt;p&gt;AI 对存储的拉动是真实的，但这不等于所有存储相关公司都会长期受益。&lt;/p&gt;
&lt;p&gt;机械硬盘和闪存仍然有周期属性。价格上涨、产能紧张和客户长约会改善短期业绩，但一旦新产能释放、需求增速放缓，行业仍可能回到供需再平衡。对硬件公司来说，最需要关注的不是某一次涨价，而是需求是否能持续、毛利率是否改善、产能扩张是否过度，以及客户结构是否足够健康。&lt;/p&gt;
&lt;p&gt;更稳妥的理解是：AI 正在改变存储行业的需求结构。过去外界更关注算力，现在越来越多成本会转向数据保存、数据治理和模型生命周期管理。&lt;/p&gt;
&lt;h2 id=&#34;结论&#34;&gt;结论
&lt;/h2&gt;&lt;p&gt;AI 不是只消耗算力，它还持续制造数据。&lt;/p&gt;
&lt;p&gt;GPU 负责计算，HBM 负责高速喂数据，SSD 负责热数据访问，而机械硬盘负责承接庞大的冷数据底座。只要大模型训练、合成数据、推理日志和合规留存继续增长，数据中心就需要大量低成本、高容量的存储介质。&lt;/p&gt;
&lt;p&gt;机械硬盘看起来不像 AI 时代的明星硬件，但它正在变成 AI 基础设施里不可缺的一层。越先进的模型，越离不开庞大的存储系统；越昂贵的算力，越需要可靠的 checkpoint 和归档能力来保护已经投入的成本。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Anthropic 联手 SpaceX：大模型竞争进入算力重工业时代</title>
        <link>https://knightli.com/2026/05/08/anthropic-spacex-ai-compute-heavy-industry/</link>
        <pubDate>Fri, 08 May 2026 23:39:08 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/08/anthropic-spacex-ai-compute-heavy-industry/</guid>
        <description>&lt;p&gt;Anthropic 与 SpaceX 的算力合作，表面上是一次资源租赁：Anthropic 获得 SpaceX Colossus 1 数据中心的 300MW 级新增算力和约 22 万张 NVIDIA GPU，Claude 用户随即看到使用限制放宽、Claude Code 限额提升、部分高峰期限制减少。&lt;/p&gt;
&lt;p&gt;但这件事的行业意义不止于“Claude 更好用了”。它说明前沿大模型竞争正在从单纯的模型能力、产品体验和融资规模，进一步下沉到更重的基础设施层：电力、数据中心、网络调度、GPU 利用率、芯片供应链，甚至未来可能的太空算力。&lt;/p&gt;
&lt;h2 id=&#34;算力不只是买-gpu&#34;&gt;算力不只是买 GPU
&lt;/h2&gt;&lt;p&gt;过去两年，AI 公司最常见的叙事是“缺算力”。谁能拿到更多 H100、H200、B 系列 GPU，谁就更接近下一代模型。但到 2026 年，问题已经不再是简单的“有没有卡”，而是“能不能把卡真正跑满”。&lt;/p&gt;
&lt;p&gt;超大规模集群的难点在于系统工程。GPU 数量达到十万级甚至更高后，瓶颈会从单卡性能转向整体调度：网络通信、并行训练、故障恢复、数据读写、液冷、电力稳定性、软件栈优化，每一项都会吞掉实际吞吐。&lt;/p&gt;
&lt;p&gt;所以，拥有算力和消化算力是两件事。前者靠资金和供应链，后者靠工程能力。对大模型公司来说，真正的护城河不再只是模型架构和训练数据，还包括让数十万张 GPU 高效协同工作的能力。&lt;/p&gt;
&lt;h2 id=&#34;anthropic-为什么需要这笔算力&#34;&gt;Anthropic 为什么需要这笔算力
&lt;/h2&gt;&lt;p&gt;Anthropic 近一年的增长压力非常清楚。Claude 在开发者、企业、Agent 和代码场景里的使用量快速上升，Claude Code 尤其容易消耗大量推理资源。用户看到的限额、排队、降速，本质上都是算力供需紧张的产品化表现。&lt;/p&gt;
&lt;p&gt;Anthropic 此前已经和 Amazon、Google、Broadcom、Microsoft、NVIDIA 等建立了大规模基础设施合作。SpaceX 这笔新增算力的价值在于，它更像一场快速补给：在短时间内拿到可以直接缓解 Claude 使用压力的 GPU 集群。&lt;/p&gt;
&lt;p&gt;这也是为什么合作消息一出，最先被用户感知到的是限额提升。对模型公司来说，算力不是抽象资产，而是直接转化为响应速度、可用额度、API 稳定性和高峰期体验。&lt;/p&gt;
&lt;h2 id=&#34;spacex-为什么愿意出租&#34;&gt;SpaceX 为什么愿意出租
&lt;/h2&gt;&lt;p&gt;从 SpaceX 或马斯克阵营看，把 Colossus 1 的算力提供给 Anthropic，也是一笔现实的基础设施生意。&lt;/p&gt;
&lt;p&gt;AI 集群是典型重资产：采购成本高、折旧快、运维费用高，且 GPU 迭代速度极快。如果自家模型团队短期内无法完全吃下这些资源，把闲置或低利用率算力租给一线模型公司，就能把硬件折旧压力转换为现金流。&lt;/p&gt;
&lt;p&gt;这让 SpaceX 在某种意义上扮演了云服务商角色。它不只是自己训练 Grok，也可以把部分 AI 基础设施能力卖给其他模型公司。对马斯克来说，这还有一个额外效果：支持 Anthropic 客观上会增强 OpenAI 之外的头部竞争者，对老对手形成牵制。&lt;/p&gt;
&lt;h2 id=&#34;ai-竞争正在变重&#34;&gt;AI 竞争正在变重
&lt;/h2&gt;&lt;p&gt;这次合作最值得关注的趋势，是 AI 产业正在变得越来越“重”。&lt;/p&gt;
&lt;p&gt;早期大模型竞争更像软件竞赛：模型结构、数据配方、训练技巧、benchmark、产品包装。今天这些仍然重要，但前沿竞争已经强烈依赖物理世界：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;电力是否足够便宜、稳定、可持续。&lt;/li&gt;
&lt;li&gt;数据中心能否快速拿地、建设和并网。&lt;/li&gt;
&lt;li&gt;网络能否支撑超大规模并行训练。&lt;/li&gt;
&lt;li&gt;GPU 和专用芯片能否按时到货。&lt;/li&gt;
&lt;li&gt;冷却系统能否承受持续高密度负载。&lt;/li&gt;
&lt;li&gt;软件栈能否把硬件利用率维持在高水平。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这就是所谓“AI 重工业”的含义。大模型不再只是实验室里的算法，而是一套横跨电网、地产、半导体、云计算和资本市场的工业系统。&lt;/p&gt;
&lt;h2 id=&#34;terafab-与芯片闭环&#34;&gt;Terafab 与芯片闭环
&lt;/h2&gt;&lt;p&gt;与此同时，SpaceX 的 Terafab 计划也被外界放到同一条逻辑线里理解。公开报道显示，SpaceX 已经提交在德州建设半导体工厂的规划，初期投资可能高达 550 亿美元，多阶段总投资可能达到 1190 亿美元。&lt;/p&gt;
&lt;p&gt;这并不意味着 SpaceX 已经能挑战台积电，也不意味着 2nm 制程可以靠资本快速堆出来。先进制程最难的不是买设备，而是良率、工艺、人才、供应链和长期积累。哪怕项目推进顺利，也会是多年甚至十年以上的系统工程。&lt;/p&gt;
&lt;p&gt;但它反映了一个明显趋势：AI 巨头越来越不愿把命运完全交给外部芯片供应链。英伟达掌握 GPU 和 CUDA 生态，台积电掌握先进制造产能，任何一环受限，都会影响模型训练和产品迭代节奏。垂直整合因此变得更有吸引力。&lt;/p&gt;
&lt;h2 id=&#34;太空算力还是远期设想&#34;&gt;太空算力还是远期设想
&lt;/h2&gt;&lt;p&gt;文章里提到的太空算力，也要谨慎看待。SpaceX 的确具备低成本发射、卫星网络和航天工程能力；太空环境也确实有太阳能和散热方面的想象空间。但把数据中心大规模搬到轨道上，仍然面临发射成本、维护、辐射、防护、通信延迟、设备寿命和商业回报等问题。&lt;/p&gt;
&lt;p&gt;所以更稳妥的说法是：太空算力目前更像远期基础设施想象，而不是已经成熟的商业方案。它代表的是马斯克体系对 AI 资源边界的思考：当地球上的电力、土地和冷却成为瓶颈时，下一步要去哪里寻找物理空间。&lt;/p&gt;
&lt;h2 id=&#34;对-openai-和大模型格局的影响&#34;&gt;对 OpenAI 和大模型格局的影响
&lt;/h2&gt;&lt;p&gt;Anthropic 获得新增算力后，最直接的影响是 Claude 的服务能力提升。更高限额、更少高峰限制、更稳定的开发者体验，会让它在代码、企业、Agent 和长任务场景里更有竞争力。&lt;/p&gt;
&lt;p&gt;对 OpenAI 来说，这意味着竞争压力不只来自模型质量，还来自对手的基础设施补课速度。前沿模型之间的差距可能越来越取决于谁能更快获得可用算力、谁能更高效调度集群、谁能把成本降下来并转化为产品体验。&lt;/p&gt;
&lt;p&gt;对整个行业来说，这也意味着 AI 公司之间的竞争方式会更像云厂商、芯片厂和能源企业的混合体。未来的大模型公司，可能既要会训练模型，也要会建数据中心、谈电力、做芯片定制、优化网络和管理超大规模资本开支。&lt;/p&gt;
&lt;h2 id=&#34;总结&#34;&gt;总结
&lt;/h2&gt;&lt;p&gt;Anthropic 与 SpaceX 的合作，不只是一次 Claude 算力扩容，也不是简单的马斯克“结盟”某个 OpenAI 竞争对手。它更像一个信号：AI 竞赛正在从模型层进入基础设施层。&lt;/p&gt;
&lt;p&gt;算法仍然重要，但仅有算法已经不够。谁能获得稳定能源，谁能把海量 GPU 跑出高利用率，谁能掌握更自主的芯片和数据中心能力，谁就更有机会在下一阶段大模型竞争中占据主动。&lt;/p&gt;
&lt;p&gt;算力正在成为 AI 时代的石油，而真正稀缺的不是单张 GPU，而是把能源、芯片、网络、调度和产品需求打通的工业组织能力。&lt;/p&gt;
&lt;p&gt;参考链接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.36kr.com/p/3800302903210752&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;36氪：马斯克结盟 Anthropic，标志着大模型战争正式进入“重工业时代”&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.axios.com/2026/05/06/anthropic-spacex-elon-musk-compute&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Axios：Anthropic will get compute capacity from SpaceX&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.itpro.com/software/development/anthropic-claude-code-usage-limits-increase-spacex-compute-deal&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;ITPro：Anthropic is increasing Claude Code usage limits&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://techcrunch.com/2026/05/06/spacex-may-spend-up-to-119-billion-on-terafab-chip-factory-in-texas/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;TechCrunch：SpaceX may spend up to $119B on Terafab chip factory in Texas&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
