大模型浪潮推动之下,数据中心的“液冷时代”将给谁带来机会?_全球观察
发布时间:2023-06-13 12:35:23 来源:引领外汇网

数据中心新时代,液冷起飞

编者按:本文来自微信公众号 奇偶派(ID:jioupai),作者:叶子,编辑:钊,创业邦经授权发布。


(资料图片)

随着AI、云计算、区块链等技术的快速发展,数据资源的存储、计算与应用需求加速扩张。尤其是自去年年底以来,由ChatGPT引起的大模型浪潮,更是让数据处理热上加热,进一步催生了AI算力等大功率应用场景加速落地。

作为信息基础设施中心及通信设备的数据中心承担的计算量越来越大,对计算效率的要求也越来越高,全球包括国内的数据中心有望迎来建设高峰。

而为了应对网络处理性能的挑战,数据中心服务器及通信设备不断提升自身处理能力和集成度,功率密度节节攀升。而这些变化除了带来巨额能耗问题以外,高热密度也给制冷设备和技术提出了更高要求。

如何能在政策严格限制PUE(Power Usage Effectiveness)的情况下,仍旧保证散热能力的不缺失,成为了摆在所有数据中心前面的一道难题。

在此背景下,作为风冷的进阶版本,液冷凭借其超高能效、超强散热等特点引起行业的普遍关注,并逐渐成为散热的新方向。

那么,为什么液冷能成为大型数据中心散热的必经之路?相关技术分支有哪些?在液冷产业链中,哪些公司将迎来起飞良机?

01 液冷为何是数据中心散热的唯一选择?

在政策、技术与经济性三重因素的共同推动下,液冷正在快速替代风冷,几乎要成为数据中心散热的唯一选择。

在政策端,数据中心作为日益增长的能耗大户,相关政策不断出台,衡量其能耗的PUE指标也在日趋严格。

中国通信院数据显示,近年我国数据中心规模稳步增长,按照标准机架2.5KW来统计,2022年我国数据中心机架规模将达到670万架,近五年的CAGR超过30%。其中,大型以上数据中心增长更为迅速,2022年底规模达540万架,占比达81%。

资料来源:中国通信院,中银证券

而在数据中心存量不断增长的同时,其耗电量也在快速攀升。工信部数据显示,2021年我国数据中心耗电量为2166亿kwh,占社会总耗电量的2.6%,相当于1.3个上海市的总社会用电量,而其中用于散热的能耗占比超过40%,更是占到了非IT能耗的80%。

资料来源:中国数据中心行业现状深度研究与未来前景分析报告

同时,在双碳背景下,政策导向上也明确要求PUE进一步改善。国家层面,2021年11月发改委等部门发布的文件明确指出,新建大型、超大型数据中心PUE低于1.3,而内蒙古、贵州、甘肃、宁夏节点的数据中心的PUE更是要控制在1.2以下。

可以说,在政策端的指导下,如果数据中心仅仅依靠风冷进行散热,从能耗上来看已经难以走通,新型散热方法的应用迫在眉睫。

在技术端,伴随着芯片能耗的提升,风冷逐渐乏力,液冷势在必行。

随着ChatGPT引爆新一轮人工智能应用的热潮,大模型训练、运营中对算力的需求也大幅增加,而在算力需求的背后,则是对芯片需要具备更高计算效率的渴求。

进入2023年以来,英伟达发布了最新的H100计算卡,而其老对手AMD也即将发布Instinct MI300显卡,为大模型与人工智能的发展提供坚实的技术底座。

但计算能力的快速发展,就必然伴随着能耗的加大,据ODCC《冷板式液冷服务器可靠性白皮书》信息,2022年Intel第四代服务器处理器单CPU功耗已突破350瓦,英伟达单GPU芯片功耗突破700瓦,AI集群算力密度普遍达到50kW/柜。

资料来源:紫光集团,浙商证券研究所

而随着散热需求的增加,风冷也逐渐显得乏力。根据CNKI数据,在风冷系统中,风机转速在4000r/min时,对芯片的散热效果明显,而当风机转速超过临界值后,便只能改善与空气的导热传热,散热效果降低,已经不足以完成当前主流高性能芯片的散热任务了。

而液体作为吸热能力更强的材料,在同等单位体积下吸收热量是空气的近3000倍,可以有效保障芯片在较低的温度范围内进行超频工作而不出现过热故障,完全具有“压住”计算卡的能力。

此外,液冷服务器还可以排除海拔、地域和气温的差距,保证运行效率和性能,具备规模化应用的优势。

在经济性方面,液冷技术已经成熟,商业模式合理,可有效节约能源开支。

根据中银证券测算,以单机房为例,200台服务器总功率为192KW,液冷方案比传统风冷方案可省电30%,虽然新投入液冷的建设成本有提升,且整体节约的运行成本随着使用年限的增长逐步增加,但从整体来看三年和五年的项目成本液冷较风冷减少7%和12%。

而在大模型训练+推理的共同驱动下,因风冷难以适配最新的计算卡,也推动了液冷市场总量与边际增速快速提升,这意味着对于更大规模的机房和数据中心来说,规模效应可以进一步体现,从经济性角度来看,液冷明显比风冷更节能、更划算。

资料来源:IDC,中银证券

02 液冷的三大技术路线

虽然,液冷都是使用液体来完成导热和散热,但在技术方向上大体可分为接触式及非接触式两种。

接触式液冷,是指将冷却液体与发热器件直接接触的一种液冷实现方式,包括浸没式和喷淋式液冷等具体方案。非接触式液冷,是指冷却液体与发热器件不直接接触的一种液冷实现方式,包括冷板式等具体方案。

资料来源:IDC圈

冷板式冷却,液体与发热器件不会直接接触,主要通过液冷板将发热器件的热量间接传递给封闭在循环管路中的冷却液体,再将冷却液体中的热量排至大气环境中,之后再次通过风冷或水冷等方式循环冷却。

资料来源:《中兴通讯液冷白皮书》冷板式液冷示意图

喷淋式液冷,是面向芯片级器件的精准喷淋,按发热元件需求,通过重力或系统压力直接将冷却液喷洒至发热器件或与之连接的导热元件上的液冷形式。

资料来源:《中兴通讯液冷白皮书》喷淋式液冷示意图

而浸没式液冷,则将 IT 设备发热元件全部浸没在冷却液中实现散热,根据工质是否产生相变又分为单相液冷和相变液冷。吸热后的冷却液采用风冷或水冷等方式循环冷却或者冷凝。

资料来源:《中兴通讯液冷白皮书》浸没式液冷示意图

在三种液冷路线中,由于冷板式液冷没有实现元器件与冷却液的直接接触,故起步较早,目前成熟度最高。而浸没式液冷、喷淋式液冷因冷却液与元器件直接接触,导致对氟化液纯净度、流体沸腾过程控制要求更高,所以起步较晚,尚未大规模商用。

但目前,3种不同液冷方案在通信行业各有一些应用案例。

冷板式液冷在军用雷达、高密度数据中心、高性能电脑、动力电池以及高功率LED散热领域中已经有了大量的应用,是解决大功耗设备部署、提升能效、降低制冷运行费用、降低TCO的有效应用方案。

浸没式液冷则因实现了100%的液体冷却,具有更优的节能效果,在超算、高性能计算领域取得了较多的应用。

其中单相液冷类技术克服了以往IT设备运行环境的限制,几乎完全免除湿度、灰尘和振动的影响,优化了服务器的运行环境,延长了设备的寿命。而相变浸没式液冷技术则在单相液冷的基础上更进一步,即使服务器在全负荷的状态下运行,服务器整体温度仍能够维持在合适的范围内,是数据中心高效和极具前景的冷却方案。

但喷淋式液冷作为两种方案的”中间体“,面临着比上不足比下有余的情况,也导致目前公开展示的研究成果和应用实践相对较少。

03 液冷巨头艾默生之下 浪潮信息和巨化股份

伴随着AI大模型引领算力需求快速升级,带动高功率密度的智算和超算中心建设,液冷配套设施早加速导入市场的过程中,也出现了一批相关企业的投资机会,主要集中于第三方专业温控厂商、布局液冷技术的服务器厂商与冷却液制造厂商中。

首先是以艾默生系为代表的专业三方温控厂商,深耕业内多年,拥有极广的客户资源,在存量产品替换层面具有极大的规模优势。

艾默生系公司普遍具备基础的散热技术平台,且拥有技术横向复用、业务横向开拓的能力。旗下诞生的一批国内电力电子技术龙头公司,如汇川技术、麦格米特等,基于电力电子技术,聚焦在细分领域的应用,并逐步实现场景化的扩张,市值由十亿级走向百亿和千亿级。

而在旗下的数据中心温控厂商中,前身是艾默生网络能源的维谛技术龙头地位稳固,市占率达30%左右,连续16年在国内机房空调市场排名第一。

而在全球范围内,维谛技术也有广泛的客户基础,目前在网运行超过100万套空调产品,在未来存量数据中心产品替换上具有极大的规模优势,也是国内机房空调市场一超多强中一超的扮演者。

资料来源:ICT Research

同时,出于安全性、稳定性等考虑,企业客户在选择液冷数据中心基础设施供应商时通常需要进行严格的资质验证。另一方面,客户在与液冷数据中心基础设施供应商建立生产配套关系后,倾向于维持与现有技术供应商的合作,不会轻易更换主要供应商,因此先进入者具有先发优势,也成为了维谛技术的最大依仗。

在受益于产品替换的第三方温控厂商外,由于服务器行业具有较高的进入壁垒,也让提前布局液冷的服务器厂商拥有了大展身手的机会。

液冷数据中心基础设施产品的研发和制造涉及冷却技术、制冷系统设计及仿真技术、温湿度解耦控制算法等多项技术领域,要求企业具备成熟、深入的技术积累,而部分长期跟踪散热技术的服务器厂商则具有深厚的技术实力,成为了最直接的受益者。

其中,浪潮信息作为“All In 液冷”的服务器厂商,已拥有百余项液冷技术领域核心专利, 并参与制定与发布10余项冷板式液冷、浸没式液冷相关设计技术标准,同时联合牵头立项及撰写冷板式液冷核心技术的4项标准。

在产品端,去年年浪潮信息发布全栈液冷产品,通用服务器、高密度服务器、整机柜服务器、AI 服务器等四大系列均支持冷板式液冷,同时浪潮信息亚洲最大液冷数据中心研发生产基地正式投产,年产能达到10万台,实现了业界首次冷板式液冷整机柜的大批量交付,并进一步升级液冷智算中心解决方案,实现数据中心PUE<1.1。

资料来源:公司公告

目前,浪潮信息液冷产品和解决方案已经在互联网、金融、教科研等领域得到广泛应用。浪潮信息与京东云联合推出天枢液冷整机柜服务器,数据中心部署总体能耗降低40%以上,散热效率提升50%,已经于京东云数据中心完成规模化部署。

而在液冷相关的产品外,冷却液作为整个系统中最关键的材料,市场需求大幅提升。

在浸没式液冷技术应用中,除了硬件设备要求,液体冷却剂也是极为关键的因素之一。对于合适的接触式液冷冷却剂,其物化性质都有着众多要求,并且需保证不受监管限制。

而在众多材料中,由于氟化液具有良好导热性、电绝缘、化学惰性等特性,也成为了冷却液的最佳选择,当前已被用作超级计算机系统和军用的敏感电子元器件的冷却液。

目前,可以大量生产氟化冷却液的国内企业包括巨化股份、新宙邦等企业,其中,巨化股份是最先完成量产的企业,其开发的高性能巨芯专用冷却液于2020年年底正式出厂,填补了国内高性能大数据中心专用冷却液的空白。

作为大数据中心冷却液产品,巨芯冷却液已通过第三方测试、流动模拟测试、基材兼容性测试和单机运行测试,主要性能指标与国外垄断产品相当。目前,公司依托自有的技术研发中心已成功开发出系列电子氟化液产品包括氢氟醚D系列产品和全氟聚醚JHT系列产品。

而在冷却液的物化性质、冷却效率验证通过后,2021年8月,巨化下属企业、浙江创氟高科“年产 5000吨巨芯冷却液项目”快速上马开工建设,项目投资5.1亿元,产业化项目采用行业先进的制备工艺技术,在节能减排降碳方面有着显著效果。

项目建成后,将成为全球技术、产能双领先的单套浸没式冷却液生产装置,能有效满足国内企业对浸没式冷却液的需求。巨芯冷却液规划5000吨/年产能,截至目前,一期1000吨基本已建设完成。

图源:巨化股份公众号

04 写在最后

随着AI、云计算、大数据等技术的快速发展,作为信息基础设施的数据中心及通信设备承担的计算量越来越大,对计算效率的要求也越来越高,从而对散热效率提出了更高的要求。

而在政策、技术与经济性三端的共同推动下,具备多项优势的液冷技术正在快速替代风冷技术,即将成为未来主流。

而在这一过程中,第三方温控厂商、传统服务器龙头、冷却液生产厂商都在这个从1到100的过程中快速提升技术实力,加速抢占市场份额。

而一批液冷产业链公司,或许也能在长期的替换和新增需求等积极因素的影响下,得到市场的认可与回馈。

标签: