-
“国内智算中心超280个,GPU利用率平均不到30%”
在4月23日召开的“2025云网智联大会”上,SNAI推委会荣誉主席、原中国电信科技委主任韦乐平发表“大模型驱动下智算网的发展趋势”主题演讲。他表示,当前智算中心遍地开花,国内超280个,但GPU利用率很不均衡,饱的撑死,饿的饿死,平均不到30%。机内总线带宽与机间网络带宽不匹配,机间网络带宽太窄,算效不高。机内总线架构的开放性、兼容性和扩展性不理想。缺乏可盈利的商业模式。
韦乐平表示,生成式人工智能的联网技术主要包括 以太网 、IB(InfiniBand)、芯片光互连、PCIe、CXL( 计算机 快速链路)、OCS( 光纤 交换)等。
以太网是世界上规模最大的低成本联网技术,但是,其传统形态和协议已经不能满足大集群联网的苛刻性能需求。目前有三个改进方向:RoCE是一种基于以太网的RDMA。允许直接访问远程节点内存,减小了数据传递时延,降低了CPU的使用率。适合GenAI应用的需求;无损以太网在现有以太网基础上进一步采用先进的流控、改进拥塞处理、优化哈希算法等新技术,性能大为改进,但是长尾时延仍偏高(5-10us),赶不上IB(1us),适合不高于2000GPU互连场景;超级以太网联盟(UEC)从物理层、链路层、传输层和软件层全面改进以太网,具有优异的负荷均衡、更好的网络利用率和更短的时延,满足GenAI和HPC所需,同时保留以太网生态系统的优势,期望性价比全面赶超IB。预计2026年起量。
IB是一种用于高性能计算的计算机网络,具备高 宽带 、高扩展、高可靠、无阻塞、超低时延(1us)的特点。但其需要采用专用硬件IB 交换机 和IB 网卡 ,成本较高,扩展性受限,产业生态较弱,过于封闭,由英伟达独家控制。最适用高性能计算和高质量大模型训练场景。
此外,芯片光互连技术还不成熟,标准缺失,预计最快2026年有产品;PCIe是一种计算机串行扩展总线技术。2025年计划发布PCIe7.0版本,期望进一步提升至128GT/S能力;CXL是一种架构在PCIe串行总线上的新接口协议和高速互联技术,长期看,CXL将导致现有 服务器 架构的解构,将处理、内存分别纳入不同物理模块,使能资源的查询和共享,适应大集群的训练需要和高性能计算的需要;OCS是一种以光纤通道为交换颗粒的大容量交换,近中期主要替代AIDC中的Spine层的电交换机,长期会进一步向外扩展。
韦乐平还提到了大模型训练智算拉远的思考。市场需求层面,以网补算,提升闲散智算中心算力资源利用率。面对大批分散部署、利用率很低的小规模智算中心,若能通过网络互联形成一个大型的逻辑智算池来适应规模日益增长的大模型训练,有望大幅提升闲散智算资源的利用率。
迈向未来,跨域训练是必然趋势。据统计,大模型参数每1-2年增长10倍,而对应的GPU芯片的算力仅增长2-4倍,远低于模型规模的增速。随着模型规模的日益扩大,单体的算力、电力、空间资源终将受限,可能需要在园区甚至更大范围内由多个智算中心互联形成一个超级逻辑智算资源池,进行联合训练才有可能支撑超大模型的训练。至于推理与具体业务场景和访问量相关,更需要跨域实施。
谈及大模型训练智算拉远的挑战,他表示,在复杂的商用场景下,面临大量不同功能、性能的异构GPU、规模不同的AIDC的互联、不同业务场景、不同设备和不同组网方式、不同模型和不同参数的协同挑战。
技术层面,存在带宽收敛问题。无收敛带宽普适性和前瞻性好,部署快,但成本太高;收敛比4-8时,带宽成本可以降至10%之内,但是只适用特定业务场景下的特定模型拆分方式,缺乏普适性和前瞻性。同时,还存在功能和性能问题。拉远后必然面对丢包、抖动乃至中断故障等诸多挑战,对R0CE网络的功能和性能有不少严格的要求。
统一管理和运维层面,现有固化的组织架构和生产流程不适合快速部署逻辑统一的异地智算中心,需要对现有管理运维体系、生产流程、监控管理平台改造升级。
- 责任编辑: 方周 
-
对话跨境商家:关税政策出台后,订单量反而有所增加
2025-04-24 09:10 观网财经-海外 -
马斯克称中国用户对FSD最苛刻;苹果收巨额罚单;宇树将参加机器人运动会
2025-04-24 08:55 观网财经-科创 -
2025年超长期特别国债今起发行
2025-04-24 06:46 -
茶咖日报|墨西哥人给“美式咖啡”改名,以表对特朗普不满
2025-04-23 21:50 观网财经-消费 -
这个新成立的人工智能联盟,华为、OPPO、vivo担任轮值理事长
2025-04-23 18:45 观网财经-科创 -
“国补”最大受益者?小米手机时隔10年再成中国出货第一
2025-04-23 17:03 观网财经-科创 -
液晶面板量价齐升,京东方一季度预盈超16亿
2025-04-23 15:34 观网财经-科创 -
“电商平台全面取消仅退款”上热搜
2025-04-23 14:29 观网财经-互联网 -
科大讯飞去年营收233亿,董事长称坚守底座模型
2025-04-23 14:14 观网财经-科创 -
董明珠又点小米:格力电车跑了十几年,从没有火灾事故
2025-04-23 11:07 -
“特斯拉有足够实力应对特朗普的任何决定”
2025-04-23 09:16 观网财经-金融 -
美股收复昨日失地;董明珠100%高票连任;马斯克称特斯拉将完全自动驾驶
2025-04-23 08:49 产业万象 -
华为发布高速L3商用解决方案
2025-04-23 07:35 观网财经-科创 -
茶饮搜索量周环比激增110%,美团向黑钻会员发放0元畅饮券
2025-04-22 22:44 观网财经-互联网 -
门店减少2600多家、业绩降至3年最低,这届年轻人为啥不爱啃鸭脖?
2025-04-22 21:37 观网财经-消费 -
外卖大战升级,京东、美团股价双双下跌
2025-04-22 17:24 观网财经-互联网 -
董明珠连任格力电器董事
2025-04-22 16:59 今日财经 -
从会做题到会看病,如何训出真正好用的医疗智能体?
2025-04-22 16:57 -
“京东外卖崩了”冲上热搜,官方称已全面恢复
2025-04-22 15:43 观网财经-互联网 -
“酒类流通第一股”业绩遇冷,华致酒行净利润率仅剩0.47%
2025-04-22 14:46 观网财经-消费
相关推荐 -
最新闻 Hot
-
特朗普又“眨眼”:中方来谈吧,签个“特殊协议”
-
“共和党人气坏了,但碍于特朗普只能保持不安的沉默”
-
美媒放风:特朗普考虑大幅下调对华关税,或降至50%-65%
-
12州联合起诉:特朗普,收手吧
-
特朗普警告泽连斯基:再打3年,你国都没了
-
最后一刻,他俩都不去了
-
“纯关税壁垒最粗暴,欧盟快和中国谈吧”
-
总计7亿欧元,欧盟对苹果、Meta“罚酒三杯”
-
“中国打贸易战有秘密武器:AI机器人大军”
-
“俄乌都得在领土上让步,再不同意美国就退出”
-
中国不买美国液化气了,换中东
-
把中国货“藏”在加拿大,“我们赌特朗普会认怂”
-
涉及稀土,马斯克:正与中方协商
-
美国着急放风“即将与日印达成协议”,其实只是…
-
通用电气CEO:别打了,我们还没给中国交付...
-
哥伦比亚总统:我认为特朗普政府把我的签证吊销了
-