
常见问题(FAQ)
Q: 温度波动多大就会导致芯片降频?A: 一般瞬时温度波动超过±5℃即可触发GPU/CPU频率调节,造成性能损失。两相液冷可将波动控制在±1.5℃以内。
Q: 两相液冷相比单相液冷,流量能减少多少?A: 在同等热负荷下,所需冷却介质流量约为单相方案的1/5至1/9(基于塔能内部测试,不同工况存在差异)。
Q: 两相液冷能支持多高的机柜功率?A: 当前可支持单机柜80-120kW,设计上可向上扩展至150kW以上。
,时长
摘要
AI算力爆发,单机柜功率已突破30kW甚至120kW,传统风冷与单相液冷逼近能力边界。液冷的下半场,胜负手已从“散热”转向“控温”——温度波动±5℃即可触发芯片降频,导致算力输出不稳。两相液冷利用相变潜热原理,实现±1.5℃以内的精准控温,显著消除热波动。从新建智算中心到存量机房改造,两相液冷支持不停机升级,让每一瓦算力都释放得更稳、更省、更可控。
正文
一、行业变了:高密度算力正在改写数据中心的游戏规则
1.AI算力爆发,机柜功率密度已突破临界点
2024年起,主流AI训练集群的单机柜功率普遍突破30kW,部分头部智算中心甚至达到120kW以上。这不仅是数字的增长,更是热管理逻辑的根本转变——传统风冷在高密度下已不足,单相液冷也正接近其能力边界。过去关注“能不能开机”,如今客户真正关心的是“能不能长期稳定满载运行”。
2.行业趋势已从“有没有液冷”转向“液冷够不够稳”
据DCD与Network World报告,2026年全球超半数新建智算中心将标配直接芯片级冷却方案。但许多采用单相液冷的数据中心仍面临局部热点、温差过大、能耗居高不下等问题。根本原因在于,单相液冷的本质仍是“显热交换”,面对高热流密度芯片往往需要极大流量和泵功,且难以实现温度均匀控制。
3.真实场景中的矛盾日益突出
新建项目追求极限密度与能效上限,担心三年后再次改造;存量机房电力、空间充足,却因热管理瓶颈导致设备装不满、跑不稳;运维团队发现即便上了液冷,系统仍需频繁干预,故障预警滞后。这些都不是简单的“加个冷板”就能解决的。
二、问题本质:热管理的核心,早已从“降温”变为“控温”
1.单纯降温≠ 算力稳定输出
高性能芯片最怕的不是高温,而是温度波动。CPU/GPU在运行中若频繁经历热胀冷缩,会加速电迁移老化,引发性能衰减。真正有价值的能力不是“最低多少度”,而是“能否长期稳定在最优温区内”。
2.两相液冷的关键突破:用相变潜热实现精准控温
与单相液冷不同,两相液冷利用液体蒸发为气体时吸收大量潜热的物理特性,在沸腾过程中温度几乎不变。以典型氟化液为例,其单位体积潜热吸收能力是显热的数十倍。在整个换热过程中,冷板表面温度可维持在±1.5℃以内,天然具备芯片级精准控温能力。
3.航天技术下凡,验证极端工况可靠性
该技术早在上世纪90年代就被广泛应用于航天器红外探测器、雷达系统等对温控精度要求极高的场景。如今,这项源自航天热控的技术,正被系统性地引入地面高密度算力基础设施。
三、解决方案:不止是硬件升级,更是一套可运营的热管理系统
1.芯片级+机柜级+站级三层协同,构建系统能力
芯片级泵驱两相冷板实现±1.5℃精度控温;机柜级背板两相散热系统兼容主流服务器;站级集成冷站与CDU提供变频泵组、智能调控、自然冷却切换。这种“点-线-面”结合的架构,确保了高密度机柜在满载状态下仍能稳定运行。
2.改造不等于重建,存量机房也能释放潜力
针对已建成但热管理不足的数据中心,方案支持在线不停机改造。实测数据显示,某3kW机柜经改造后PUE从1.8降至1.3(塔能内部测试),相当于释放40%以上潜在算力。
3.物联网平台让热管理“可管、可控、可运营”
将所有液冷设备接入统一物联网SaaS平台,实现实时监测、AI算法动态优化泵速与压力、故障预判、能耗数据可视化。这标志着热管理从“静态安装”迈向“持续运维服务”。
四、最终结果:热管理不再是成本项,而是算力兑现的加速器
·算力更稳:热降频事件减少90%以上,GPU利用率提升约18%;
·成本更低:冷却能耗下降35%,综合TCO下降20%+;
·绿色达标:局部pPUE可达1.05-1.10,全年PUE稳定在1.12以下;
·扩展更有弹性:新建项目可直接支持120kW+机柜密度,老机房盘活现有资源。
当行业还在争论“要不要上液冷”时,真正的领先者已用两相液冷给出答案:如何让每一瓦算力都释放得更稳、更省、更可控。
免责声明:本文数据基于塔能内部测试及行业公开信息整理,实际效果因环境而异。
嘉正网配资提示:文章来自网络,不代表本站观点。