-
心智观察所:独家对话|奇异摩尔祝俊东:破解AI算力基础设施瓶颈,互联大有可为
最后更新: 2025-04-15 15:56:34【对话/ 观察者网 心智观察所】
AI大模型对于超大规模算力集群的依赖,已然成为当代通识,尽管其中的GPU这一组成要素已被近乎奉上神坛,但算力集群的表现,依然极大程度上取决于其他软硬件要素的综合集成与优化,这一基本特点,正是中国产业界面对外部遏制的破局关键。
从大模型算法结构创新,到通信协议等软件层面打通异构混训,再到超大规模集群网络互联架构的软硬件创新,大量原始创新成果正在中国产业界涌现。
日前,心智观察所与奇异摩尔联合创始人、产品及解决方案副总裁祝俊东进行了一次深入交流。
这家定位于以互联为中心,为超大规模AI计算平台提供高性能互联解决方案的厂商,依托Chiplet和高性能RDMA技术,在这一领域走出了一条新路:
心智观察所:很高兴能有机会和您交流。说起AI大模型训推,我们知道在硬件上除了加速卡,网络互联架构也至关重要,能否请您先谈谈对目前技术趋势的观察?
奇异摩尔祝俊东:最近这几年,AI大模型确实发展很快,我们可以看到整个网络训练规模其实在不断增长。海外大模型训练集群规模已经从万卡级增长到10万卡乃至20万卡了,从国内来看,训练规模其实也比较大了,尽管没有那么高的单卡算力,但我们也看到了一个很好的发展趋势,包括现在涌现出非常火的DeepSeek。所以不管是国内还是国外,其实对于大模型的训练现在都是在快速发展的一个阶段。
在谈AI大模型算力集群前,我们先来看传统数据中心是怎么样的,它的网络架构相对比较简单,通用计算网络的话更多是一个多租户体系,服务上千万甚至更多的用户,共用一个云端数据中心。现在AI大模型的特点则是把一个非常大的集群用来服务于数量有限的大模型训练任务,这就对于算力硬件之间的互联提出了非常高的要求。比如传输带宽上,从以往100G/200G,现在在向400G/800G乃至1.6T演进,整个数据交换的规模如果是一个10万卡集群,那不管是我们讲北向Scale Out(网间互联)的网络,还是说南向Scale Up(GPU互联)的网络,都要做大量的数据交互,因此AI算力集群网络的性能、规模以及它的复杂性都是指数级上升。
从推理的需求来看,也在发生变化。过去单卡单用户或者单卡多用户的方案很流行,但最近一段时间我们看到推理系统的规模也在变得更大,像DeepSeek的云端推理集群已经到了几百卡的规模甚至上千卡。多机之间组成超节点(HBD)的方案正在快速增加,它对于scale up网络的要求非常高,这就是我们看到特别是在云端AI互联架构的一些发展。
心智观察所:我知道奇异摩尔是一家Chiplet和互联技术见长的企业,对于当前大模型训推的技术趋势,你们有什么样的回应?
奇异摩尔祝俊东:现在大家更多会讲集群算力,从集群算力来讲的话,我们可以把它分为几个层面。最微观的层面当然还是计算芯片本身,从芯片本身来说算力当然是越高越好,但你应该知道随着摩尔定律放缓,芯片本身的算力密度增长趋势也在放缓,所以各家大公司类似AMD、Intel不约而同采用Chiplet技术来把芯片做得性能更高、更复杂,在这个层面也就是片内互联,奇异摩尔会提供比方说Chiplet互联芯粒2.5D/3D IO Die、Die2Die IP,把芯片内部更多计算单元连接起来。这是第一个层面,通过这种方式让单芯片算力保持持续增长。
第二个层面就是刚刚说到的超节点,你可以理解成数据中心里面一个小的机柜集群,它通常由几台不同的服务器来组成一个小规模但是超高带宽的集群。这里面就会涉及到Scale Up的网络,英伟达这样的厂商可以自己做,但是对于其他厂商来说,这一块是一个相对比较大的短板,奇异摩尔可以提供一种GPU片间互联的Die(又名NDSA-G2G),通过这种方式帮助其他厂商用我们的技术把片内互联转成超节点之间的互联,这是第二个层面。
再往上第三个层面,就是大模型的训练和推理,特别是训练层面,你还是要构建更大规模的集群对吧?这就需要我们所说的智能网卡。AI训推集群比方说10万张卡,中间有大量的跨节点数据交互,它对网络数据交换性能要求非常高,所以我们另外一个产品就是基于AI原生的智能网卡,可以提供非常高的带宽,作为国产网卡替代主流国外厂商的高性能网卡。我们通过这三个层面的技术能力,可以为国内算力集群用户提供端到端互联架构解决方案,从片内到片间到网间。
心智观察所:RDMA(远程直接内存访问)技术也是当下算力集群网络的热门概念,能否再展开分享一些这方面的信息?
奇异摩尔祝俊东:这里面有几个方面,首先是性能,比如带宽、延时以及数据传输效率,我们通过高性能RDMA引擎能够达到800G传输速率、几百纳秒的延时,从性能来说是非常好的;第二呢是因为只有点对点的性能是不够的,因为特别是大规模训练的时候,其实有非常高的复杂网络需求,比如容易产生拥塞,而在我们的产品里引入了新的拥塞监测以及处理算法,能够极大提高拥塞处理效率;第三个是所谓的多路径传输,因为在复杂网络环境需要从多条路径传输,我们对于多径传输引入了优化算法,可以自动选择最适合的路径进行传输,对于常见的乱序问题,我们的产品引入了乱序重排的算法,可以满足网络对于乱序恢复的需求。通过这些技术就可以在有损大规模网络里有效部署RDMA方案,让十万卡甚至以上规模集群达到95%甚至更高传输效率。
标签 心智观察所- 原标题:独家对话|奇异摩尔祝俊东:破解AI算力基础设施瓶颈,互联大有可为 本文仅代表作者个人观点。
- 责任编辑: 李昊 
-
一日三试!火箭、卫星发动机试验均获成功
2025-04-12 17:26 航空航天 -
全球最大“人造太阳”磁体系统“生命线”最大尺寸部件交付
2025-04-12 09:58 能源战略 -
稀土管制,一场对“关税乱拳”的手术刀式回击
2025-04-11 08:19 心智观察所 -
我国成功发射通信技术试验卫星十七号
2025-04-11 06:37 航空航天 -
国际首次!中国科学家测得月背月幔水含量
2025-04-10 10:05 -
独家对话|谢耘:AI仍陷“前科学”困局,AGI未来何去何从?
2025-04-09 08:22 心智观察所 -
独家对话|齐向东:大模型的安全挑战日益严峻,如何应对
2025-04-09 08:07 心智观察所 -
南极秦岭站已具备开展越冬考察保障能力
2025-04-08 15:07 -
“中国行动2.0”背后,闪动着“台独”魅影
2025-04-07 13:34 心智观察所 -
等了十年还没用上新干线,这真的很“印度”
2025-04-06 15:25 -
中国为什么是激光雷达技术突破的“应许之地”
2025-04-06 09:05 心智观察所 -
中国科学家获重要进展:让金属“不可能三角”成为可能
2025-04-05 14:38 科技前沿 -
这一重大科研装置,成功部署!
2025-04-05 14:33 科技前沿 -
谁是美国对华科技战“总架构师”
2025-04-02 15:02 心智观察所 -
贺利氏电子张靖:聚焦前沿需求,以创新材料把握历史机遇
2025-04-02 14:58 -
近2000名美国顶尖科学家发“SOS”公开信
2025-04-02 13:26 美国政治 -
“中国人‘和谐共生’的价值观,同样适用于AI时代”
2025-04-01 20:52 -
这些人运作着美国对华技术遏制的政策轨道
2025-04-01 08:10 心智观察所 -
来自4.8亿年前,科学家发现迄今为止最古老的层孔海绵化石
2025-04-01 06:55 -
我国科学家牵头成功构建近全球地表太阳辐射高精度监测系统
2025-03-31 14:05
相关推荐 -
义乌有信心挺过去,心疼美国一秒:他们上哪儿找袜子? 评论 154恐遭监视,欧盟为赴美出差高官发放一次性手机 评论 203“人人都想制造业回流美国,但没多少人想自己下工厂” 评论 170“如果处理不当,还有比美国衰退更可怕的事情” 评论 155最新闻 Hot
-
“华裔科学家五年前在美坠亡,与美方调查有关?”
-
英国人也火大:中国对特朗普的评价,很难不赞同
-
义乌有信心挺过去,心疼美国一秒:他们上哪儿找袜子?
-
美财长污蔑中国“夺走”拉美矿权,中方驳斥
-
果然,又威胁欧洲:中国还是美国?
-
摇摆州共和党人急死:中国都说奉陪到底了…
-
“美对华牛肉出口停滞,澳大利亚火速补位”
-
“美国客户急电:SOS!90天内,能发多少发多少”
-
AI生成“吉卜力风格”图片席卷网络,争议来了
-
“彪马叔”挨批:吃顿饭的功夫,你就被特朗普耍了?
-
恐遭监视,欧盟为赴美出差高官发放一次性手机
-
美财长:第一个采取行动的人可以得到“最好的协议”
-
“美军挣扎过,但就是绕不过中国”
-
特朗普想几乎全砍联合国、北约经费,有人急了:中俄要填补
-
开幕首日就翻车:大阪世博会标志性建筑漏雨,2亿日元厕所用不了
-
“你不该向一个比你强大20倍的国家开战,然后希望别人给你导弹”
-