联想 HR630x / HR650x 折腾笔记:LGA3647、8259CL、Optane 与避坑

参考 HR630x 装机日志和 HR650x 踩坑记录,整理联想 HR630x / HR650x 这类 LGA3647 服务器准系统的选购思路、CPU 与 Optane 搭配、VRM 解锁、风扇调速、riser、背板和 BMC/UEFI 注意事项。

最近 LGA3647 平台的二手服务器越来越便宜,联想 HR630x / HR650x 这类云厂退役机器也开始进入垃圾佬视野。它们的吸引力很明显:双路 Xeon Scalable、海量内存插槽、OCP 网卡、U.2 背板、IPMI 管理,再加上一些二代 Xeon OEM CPU 和 Optane PMem 的价格优势,很容易让人产生“千元级大算力平台”的冲动。

但这类机器并不是普通台式机升级。真正下手之前,需要先把几个坑想清楚:主板版本、CPU 代际、VRM 功耗限制、内存兼容性、专用电源、风扇噪音、riser 稀缺、硬盘背板和盘架价格、BMC 密码,以及 BIOS 是否足够新。

这篇按两篇折腾记录重新整理一版,重点不是复刻某一台机器的装机过程,而是把 HR630x / HR650x 这条路线的取舍和坑点列清楚。

平台定位

HR630xHR650x 都属于联想面向 hyperscale 场景的 LGA3647 服务器平台。简单理解:

  • HR630x 是 1U 形态,机箱更薄,扩展空间更紧张。
  • HR650x 是 2U 形态,扩展、散热和安装空间相对宽松。
  • 两者主板资料有不少共通点,很多折腾经验可以互相参考。
  • 这类机器常见来源是云厂退役,价格便宜但配置组合不一定完整。

如果只是想要一台安静、省电、放桌边长期运行的小服务器,它们不是最优解。如果目标是低成本获得双路 Xeon、较多 PCIe、较多内存槽和远程管理能力,那就很有吸引力。

准系统先看完整度

买这类准系统,价格不能只看裸机。真正影响总成本的是它缺了什么。

需要重点确认:

  • 是否带两个 CPU 散热器。
  • 风扇是否齐全。
  • 电源数量和功率是否够用。
  • 是否带 U.2 / 2.5 寸硬盘背板。
  • 是否有硬盘线缆。
  • 是否带盘架。
  • 是否带 PCIe riser。
  • OCP 网卡是否随机器一起给。
  • 主板是 24 条内存槽版本还是 16 条内存槽版本。

有些机器看起来便宜,但缺 riser、缺盘架、缺背板或缺专用电源,后面补件可能比整机还折腾。尤其是 HR650x 的 riser、U.2 背板和盘架,二手市场不一定好找,价格也未必便宜。

CPU:便宜的 8259CL 为什么需要折腾

这类平台最常见的性价比玩法,是用二代 Xeon Scalable 的 OEM CPU,比如 Platinum 8259CL。它的优势是价格低、核心线程多,并且属于二代平台,可以搭配第一代 Optane 持久内存。

但便宜通常有原因。8259CL 属于 OEM 型号,TDP 约 210W,比很多平台默认支持的 205W 限制高一点。这个差距看起来不大,但在部分主板上会导致默认无法点亮,需要修改 VRM 控制器里的电流或功耗相关限制。

常见做法是使用 MCP2221A 这类 USB-I2C 工具连接主板上的 VRM I2C 接口,然后对 PXE1610C 等 VRM 控制器写入新的限制值。参考案例中,HR630x / HR650x 平台可用的命令形式类似:

1
ModTool.exe -PXE1610C 74 76

这里的重点不是照抄命令,而是先确认自己的主板 VRM 型号、I2C 接口位置、SCLSDAGND 线序和地址。接错线或者套错平台命令,风险比 CPU 本身更大。

建议准备一颗亮机 CPU

如果机器到手后 BIOS 较旧,或者还没做 VRM 修改,直接上 8259CL 可能没有任何显示。这时准备一颗便宜的一代 Xeon 作为亮机 CPU 会方便很多。

亮机 CPU 的用途主要是:

  • 进入 BIOS 检查版本。
  • 升级 BIOS 和 BMC。
  • 确认主板、内存、电源、风扇是否正常。
  • 在修改 VRM 前排除基础硬件故障。

如果卖家已经升级过 BIOS,并且机器本身已经能点亮,那亮机 CPU 可能用不上。但对新手来说,它能显著降低排错难度。

Optane PMem 是这套平台的亮点

二代 Xeon Scalable 支持第一代 Intel Optane DC Persistent Memory,也就是常说的 DCPMM / PMem。它插在 DIMM 槽里,可以在 BIOS 中配置成内存模式或持久化块设备。

这也是 8259CL 这类二代 CPU 有吸引力的原因之一:当 DDR4 RDIMM / LRDIMM 大容量条价格上涨时,二手 Optane PMem 可能成为低成本堆容量的选择。

不过 Optane 不是普通内存的完全替代品。需要注意:

  • 必须搭配支持 DCPMM 的二代 Xeon。
  • BIOS 需要支持并正确识别 Optane。
  • 通常仍需要 DRAM 作为缓存或搭配使用。
  • 插槽位置和通道搭配要看联想手册。
  • 性能介于 DRAM 和 SSD 之间,不能按普通内存预期。
  • 可以配置 namespace,当作类似 /dev/pmem0 的块设备使用。

如果目标是“低成本大容量内存体验”,Optane 很有意思。如果目标是极致内存带宽,少通道 Optane 组合就不一定合适。

内存槽版本和兼容性

HR630x / HR650x 可能存在 24 槽和 16 槽版本。下单前最好让卖家拍清楚主板照片,不要只看标题。

内存方面,建议尽量一次买齐同品牌、同频率、同容量、同 Rank 的条子。参考折腾记录里提到过混插导致识别不稳定、甚至需要调整 CPU 或内存位置才能识别的问题。

比较稳妥的原则是:

  • 优先按官方手册插槽顺序安装。
  • 尽量不要混太多品牌和规格。
  • 不确定时先用最小配置点亮。
  • 双路平台要分别验证两颗 CPU 对应的内存通道。
  • 使用 Optane 时尤其要核对 DRAM 和 PMem 的通道搭配。

服务器内存不是“能插满就一定能亮”。容量越大、条子越杂,排错成本越高。

另外,内存不能随便插。联想官方文档里对独立模式下的 DIMM 安装顺序有明确要求,建议装机前先按手册核对槽位,再从最小可启动配置逐步扩展。尤其是双路、混合容量、混合 Rank 或搭配 Optane PMem 时,错误插法可能导致不开机、少识别内存,或者只识别某一颗 CPU 对应的通道。

风扇和噪音不能低估

这类机器原本不是为卧室、书房设计的。1U 的 HR630x 尤其明显,风扇转速高、噪音尖锐,开机默认策略可能非常保守。

参考装机记录中,机器默认风扇转速很高,需要通过 IPMI / CLI 调速才能把噪音压下来。调速后待机可以明显安静一些,但满载双路高功耗 CPU 时仍然需要保证足够风量。

调风扇时要同时看:

  • CPU 温度。
  • VRM 温度。
  • PCH 温度。
  • 内存温度。
  • 电源温度。
  • 进风和出风温度。

不要只看 CPU。服务器主板上很多芯片依赖整机风道散热,风扇降太狠可能 CPU 没事,PCH、VRM 或网卡先热出问题。

修改风扇转速

HR650x / HR630x 的风扇可以通过 IPMI raw 命令调速。社区脚本里使用的命令格式是:

1
ipmitool -I lanplus -H <BMC_IP> -U <USER> -P '<PASSWORD>' raw 0x2e 0x30 00 00 <SPEED>

其中 <SPEED> 可以理解成目标风扇百分比,例如:

1
2
3
4
5
6
7
8
# 设置为 10%
ipmitool -I lanplus -H 192.168.1.100 -U ADMIN -P 'password' raw 0x2e 0x30 00 00 10

# 设置为 35%
ipmitool -I lanplus -H 192.168.1.100 -U ADMIN -P 'password' raw 0x2e 0x30 00 00 35

# 设置为 100%,用于测试满速或高温兜底
ipmitool -I lanplus -H 192.168.1.100 -U ADMIN -P 'password' raw 0x2e 0x30 00 00 100

如果是在服务器本机系统里执行,并且已经加载了 IPMI 相关内核模块,也可以不走 BMC 网络,直接执行:

1
ipmitool raw 0x2e 0x30 00 00 20

调速前先确认 ipmitool 能读到传感器:

1
2
ipmitool -I lanplus -H <BMC_IP> -U <USER> -P '<PASSWORD>' sensor
ipmitool -I lanplus -H <BMC_IP> -U <USER> -P '<PASSWORD>' sdr

如果本机执行 ipmitool 报找不到接口,Linux 下可以先加载这些模块:

1
2
3
modprobe ipmi_devintf
modprobe ipmi_msghandler
modprobe ipmi_si

比较稳的做法不是固定一个很低的转速,而是按 CPU 温度分档。比如可以参考下面这个策略:

1
2
3
4
5
6
CPU 低于 40℃:10%
CPU 40℃ 到 45℃:14%
CPU 45℃ 到 50℃:20%
CPU 50℃ 到 60℃:50%
CPU 60℃ 到 80℃:80%
CPU 高于 80℃:100%

这类策略可以用 shell、Python 或 systemd timer 做成循环脚本,每隔几秒读取一次 CPU 温度,再写入对应风扇百分比。社区的 HR650X-IPMI-Auto-Fan 脚本就是这个思路。

手动调速时建议先从保守值开始,例如待机先试 20%,确认 CPU、PCH、VRM、内存、网卡和电源温度都稳定后,再逐步降到 14%10%。满载测试时不要一开始就用低转速,先用 50% 以上确认散热余量,再慢慢找噪音和温度的平衡点。

需要注意,IPMI raw 命令属于厂商 OEM 命令,不同 BMC 固件版本可能存在差异。执行前最好确认当前机器能正常读取传感器,并保留一个能立刻切回高转速的命令窗口。如果温度读数异常、传感器显示 na,或者风扇转速没有按预期变化,就不要继续压低转速。

电源、riser、背板和盘架

HR650x 的一个大坑是电源接口和很多扩展件并不通用。电源是联想专用形态,坏了或缺了以后补件成本不低。

riser 也要提前确认。不同 riser 支持的卡位组合不同,例如全高全长、全高半长、半高半长等。如果后续计划插 GPU、HBA、25G/40G 网卡或 NVMe 转接卡,买机器时就要确认 riser 是否匹配。

硬盘背板同样有多种配置。常见会看到 2U.2、4U.2、8U.2 或 2.5 寸盘位背板。背板、线缆、盘架、阵列卡或 HBA 都可能额外花钱。

比较现实的建议是:如果你只是想点亮跑计算,先别急着补齐所有盘架和背板;如果目标是全闪存储或高扩展,购买准系统时就要把这些配件算进总预算。

BMC、BIOS 和管理

云厂退役机器经常会遇到 BMC 密码未知的问题。如果能进 BIOS,通常可以在 BIOS 里新建或重置管理用户;如果已经能进系统,也可以通过 ipmitool 处理 BMC 用户。

BIOS 和 BMC 建议尽量升级到较新的稳定版本,原因有三点:

  • 支持更多二代 Xeon 型号。
  • 提高 Optane PMem 识别和管理能力。
  • 修复 BMC、风扇策略或硬件兼容性问题。

参考资料中提到,HR630x / HR650x 使用 8259CL 和 Optane 时可能需要更新 BIOS。不同机器批次不一样,有些卖家已经升级好,有些则需要自己处理。

HR650x 的 BIOS 和 BMC 下载可以从联想支持页面进入,对应参考链接如下:

1
https://datacentersupport.lenovo.com/cn/zc/products/servers/thinksystem-hyperscale/hr650x/7x57/7x57cto1ww/j300cvx2/downloads/driver-list/

另外,HR650x 支持 Above 4G Decoding,但 Resizable BAR 支持情况并不理想。想插大显存 GPU 或做显卡计算时,需要先确认 BIOS 选项和电源线方案。

适合什么人

比较适合折腾这类机器的人:

  • 需要便宜的大量 x86 线程。
  • 能接受待机功耗和噪音。
  • 有空间放机架服务器。
  • 愿意查手册、看主板丝印、用万用表排线。
  • 能接受二手平台的配件不确定性。
  • 对 IPMI、BIOS、VRM、DCPMM 有一定排错耐心。

不太适合的人:

  • 只想要一台安静 NAS。
  • 希望低功耗 7x24 小主机。
  • 不想处理 BMC、风扇、riser、背板、专用电源。
  • 没有备用 CPU、备用内存或基础排错工具。
  • 无法接受买回来还要刷 BIOS、改 VRM、调风扇。

小结

HR630x / HR650x 的核心价值,是用很低的二手价格拿到 LGA3647 双路服务器平台,再搭配 8259CL 这类便宜二代 Xeon 和 Optane PMem,做出一台线程数、内存容量和远程管理能力都很可观的 HomeLab 计算节点。

但它的坑也很明确:默认不一定支持高功耗 OEM CPU,可能要用 MCP2221A 改 VRM;内存槽版本和兼容性要确认;风扇噪音和待机功耗不能按家用机预期;riser、背板、盘架、电源都可能成为额外成本。

如果预算非常紧,又愿意折腾,它是一条很有趣的路线。如果只是想稳定、省心、安静,最好先把整机功耗、噪音、配件完整度和后续维护成本算清楚,再决定要不要上车。

参考链接

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计