要说智算中心和通用数据中心到底有什么不同,比如功率密度大亿点点,发热量大亿点点?还是运维更困难、用电波动更大、稳定性要求更高?到底是量变还是质变,其实业内并没有特别统一的主流说法。
9月9日在硅谷的AI基础设施峰会上,英伟达副总裁Ian Buck官宣了一项计划,他们要搞一个“AI工厂参考设计”,还拉上了一大票行业里的巨头站台。显然,至少在英伟达这里看,“智算中心”已经不是一个传统的数据中心的量变升级,而是质变产物。

传统的数据中心建设模式,包括今天很多智算中心,依旧是土建的管盖楼,机电的管水电,IT的管上架服务器。大家各司其职,最后拼在一起。所以我们也经常能在新闻里看到一两个月上架投运的智算中心项目,本质上就是服务器上架和软件部署的时间。
这次英伟达特意提出“AI工厂(AI Factories)”这个概念,就是要告诉业界,人工智能需要的AI基础设施,不应该仅仅是传统数据中心量上的提升,甚至不是一次技术升级,而是对整个数据中心规划、设计、建设和运营模式的深度重构。
英伟达都说了啥?
英伟达这一次,拿出了两个“法宝”:
1、AI工厂参考设计蓝图 (Omniverse Blueprint):就是一份建设方案,是一个可交互、可扩展的数字框架。它提供了一套标准化的方法论,指导合作伙伴如何从零开始构建一个高效、可靠的AI工厂。
2、数字孪生 (Digital Twin):基于英伟达的Omniverse平台和OpenUSD开放标准,合作伙伴可以在物理世界动一砖一瓦之前,就在虚拟世界中完整构建出一个与现实世界1:1映射的AI工厂数字模型。
据介绍,通过这个数字孪生,设计者可以:
模拟一切:从电网的波动、冷却液的流速,到服务器机柜内的气流组织,所有物理和运营细节都能被精准模拟和仿真。
提前优化:在虚拟环境中反复测试和优化供电、散热和网络方案,找到能效和性能的最佳平衡点,真正实现“每一瓦电都用于智能生成”。
协同设计:来自不同领域的专家(如Jacobs的设计师、西门子的电气工程师、Vertiv的散热专家)可以在同一个数字模型上实时协作,打破壁垒。
全生命周期管理:AI工厂建成后,数字孪生将继续作为其“智慧大脑”,用于监控、预测性维护和持续的运营优化。
当然,英伟达把手伸到建设领域,其目的不能用“昭然若揭”,而应该用“明明白白”来形容——就是给自家的GPU铺路。英伟达的数据中心设计,自然也就是最适合英伟达自家芯片使用的模式。
就在同期,英伟达还发布了推出专为长上下文推理和视频生成应用设计的新型专用GPU——NVIDIA Rubin CPX。黄仁勋声称,Rubin CPX可以同时处理数百万个知识 token 的推理。
所以国内数据中心建设/运营企业如果要想借鉴这套系统,还需要好好思量一二。