2025智能算网(AI Fabric2.0)研究报告
创始人
2026-01-11 07:07:31
0

本文为节选内容,更多报告请关注公众号:微之火

2 数据中心网络发展趋势与挑战

2.1 数据中心网络产业发展趋势

随着数字经济的加速发展,人工智能、大数据、云计算、区块链等新一代信息技术已成为社会生产力的关键支撑,尤其是以GPT-4、Llama和DeepSeek为代表的大语言模型(Large Language Models, LLMs)在人工智能领域取得突破性进展,引发了对算力资源前所未有的需求。

在数字经济加速发展的背景下,算力已成为新型基础设施的重要支撑,是推动经济社会高质量发展的核心驱动力。作为数字经济的关键组成和引领性领域,算力正加快成为培育新质生产力、赋能产业升级的重要引擎。全球范围内,各国围绕算力展开了激烈竞争,纷纷通过政策强化算力产业的引导,以抢占数字经济发展的制高点。

2.2 通算数据中心网络发展趋势与挑战

根据中国人民银行发布的金融行业标准《金融数据中心容灾建设指引》(JR/T0264—2024),通用计算网络容灾正在从“备份可用”向“智能韧性”升级。这一指引不仅提升了对灾难恢复能力,更是金融等行业在通用计算核心业务与数据中心发展理念上的重大转折。在央行《指引》的推动下,金融行业的容灾体系正在加速变革,而政务、泛互联网等领域的通算核心业务也在共同推动数据中心网络进入颠覆性重构期。

未来十年,数据中心的核心将发生根本性变化,从“异地容灾预防灾难”向“极端容灾预防战争”演进。以国内某大型银行为例,其业务架构从“业务主备、数据灾备”向“业务多活、数据多活”持续演进,这将推动通算数据中心服务器数量增长10倍,单个数据中心向“十万级”集约化建设迈进。预计在未来10年内,国内大行将率先在内蒙古、西安、成渝等地分阶段建设大型数据中心,最终建成50万甚至百万服务器级别的“多地多中心”数据中心架构,这一趋势将给数据中心的网络架构和运维带来新的变化和挑战。

2.3 智算数据中心网络发展趋势与挑战

AI产业正迎来前所未有的快速发展期,呈现出几大显著趋势变化。

1)大模型规模指数级增长,头部OTT大模型持续摸高,大模型训练带动网络发展

模型性能竞赛白热化: 2025年上半年,OpenAI的GPT-4.5、Google的Gemini 2.5Pro、Anthropic的Claude 4等模型在复杂推断能力上持续突破。例如,Gemini 2.5Pro在数学推理(2025高考数学卷得分140分)和多模态理解(支持100万令牌上下文窗口)上达到新高度,而Claude 4 Opus通过混合推断模式实现“快速响应”与“深度反思”的动态平衡。

2)推理业务快速崛起,并呈现多样化发展,带动网络发展

随着大模型技术逐渐成熟,智算行业正经历从“训练优先”向“推理主导”的战略转型。这一趋势由两大核心驱动力:

算力结构重构: 2025年中国智能算力规模预计达1037.3 EFLOPS(是通用算力的12倍),随着模型的成熟以及生成式人工智能应用的不断拓展,推理场景的需求日益增加,推理服务器的占比将显著提高。IDC数据显示,预计到2028年,推理工作负载占比将达到73%。

3)普惠AI与终端革命:应用AI化,要求高性能、低时延的网络

AI技术正从“奢侈品”变为“基础设施”,带动产业AI升级,并深度融入终端设备。产业AI升级,对性能要求更高:以金融为例,风控策略从之前的静态模型+动态策略升级为基于AI模型的实时主动防护,要求在交易的同时快速做出判断。以某国内领先的银行为例,其日均交易额约1.03万亿元,日均交易笔数达数亿级别,每秒交易上万次,会产生大量的高频并发,需要超千卡的大规模、高性能的推理网络。

3 数据中心网络代际演进

在数字经济向智能世界加速迈进的进程中,算力已成为核心生产力引擎,而网络作为算力流通的“血管”,其效率与韧性直接决定数字价值释放。随着AI技术的蓬勃发展以及云化架构的不断升级,数据中心网络正站在变革的前沿。

AI Fabric 2.0以“算力满载、业务永续”为价值目标,构建“AI网元-AI联接-AI大脑”三层架构,重塑算力网络底层逻辑,为智能时代的算网协同与业务创新提供基石支撑。

4 AI Fabric 2.0关键技术

4.1 AI 网元

4.1.1 绿色超宽

随着AI、机器学习、5G、物联网等新兴技术的发展,数据中心内部和之间的数据流量呈爆炸式增长,对网络带宽提出了更高的要求。为了满足这一需求,数据中心网络服务器的带宽升级(端口速率从10GE升级到400GE,Serdes从10G到112G)。与此同时,对网络芯片的吞吐诉求也随之上升,需要更大容量和规格的芯片。

通算网络市场,又分为EDC市场和OTT市场。EDC市场主要包括金融、政企、运营商等市场,对带宽演进的诉求相对来说慢于OTT市场,一般5年左右更新代际,当前处在从10GE接入到25GE接入演进的节奏周期中。接入设备存在框盒架构和盒盒架构两种,一般采用10GE/25GE接入、40GE/100GE汇聚设备,近几年10GE和40GE的需求量在逐步下降,25GE/100GE逐步上升。

4.1.2 高速光互联

随着AI网元朝着高速、高密、大集群的方向演进,传统电互连受限于高频损耗成倍提升,传输距离随速率提升受限,无法满足集群发展的要求,“光进铜退”的互联演进趋势不断凸显。另一方面,超高速率光模块对网元设备的功耗压力不断提升,诸如LRO和NPO的新型降功耗互联方案,也是未来光电技术演进的重要方向。

4.1.3 内生安全

数据中心一般承载高价值的业务,容易成为黑客攻击的目标;随着业务的上云会增加网络的边界,对加密传输的诉求在增加;网络设备安全容易被忽视,成为薄弱环节,形成攻击的跳板。数据中心网络设备需要有更高的安全防护。

4.1.4 智能遥测

随着人工智能迈入大规模时代,其赖以生存的“神经网络”——AI智算网络,正以前所未有的速度和复杂度急剧膨胀。数以万计的GPU/NPU集群通过高速互联构成庞大的计算实体,处理着PB级的数据洪流。然而,这种规模的扩张也带来了前所未有的“黑盒”挑战:错综复杂的网络链路、瞬息万变的流量模式、以及分布式训练中同步与通信的微妙状态,都变得难以用传统工具洞悉。因此,对网络可视化的诉求已从“锦上添花”演变为“不可或缺的生命线”。我们不再仅仅满足于看到拓扑图和流量仪表盘,而是迫切需要一种深度、智能且具预测性的全景可视化。

4.2 AI 联接

4.2.1 新型网络架构

4.2.1.1 多平面组网技术

网络层级增多将显著提升建网成本和降低网络设备综合效率,层级越高将有更多的端口资源用于网络间互联而非直连算力,因此降低算力集群的组网层级是未来创新技术方向之一。

4.2.1.2 对等组网技术

2020年12月国家发改委高技司发布《关于加快构建全国一体化大数据中心协同创新体系的指导意见》为契机,牵引全国大体量数据中心向八大枢纽布局。围绕国家重大区域发展战略,在京津冀、长三角、粤港澳大湾区、成渝,以及贵州、内蒙古、甘肃、宁夏等地布局建设全国一体化算力网络国家枢纽节点,发展数据中心集群,引导数据中心集约化、规模化、绿色化发展。

4.2.2 网络级负载均衡技术

AI集群训练过程中,参数通过高速互联网络在不同的服务器间进行同步交互,这些通信流量具有共同的特征:流量大且成周期性、流数量少,且并行任务间有强实时同步性要求,通信效率取决于最慢的节点。上述的流量特征导致网络较易出现负载分担不均、整网吞吐下降的问题,从而影响AI集群训练的性能。当前网络均衡的主流技术有两种:流级负载均衡和逐包负载均衡(有些文献中也叫包喷洒,Packet spray)。

4.2.3 拥塞控制技术

4.2.3.1 端网协同拥塞控制技术

端网协同拥塞控制技术采用“端(智能网卡)网(交换机)”配合的方式达到交换机上的近似“零排队”时延,使得端到端传输时延接近静态时延。

早期端到端拥塞控制方案都属于被动控制,即源端在拥塞发生前总是盲目地提高发送速率,而发送速率的提高又可能导致网络中排队的产生,形成拥塞。拥塞情况反馈到源端后,源端才会被动地降低发送速率。但是,由于反馈总是存在一定的时延,并且不能准确反映网络的拥塞程度,因此被动拥塞控制总是会导致网络在拥塞和非拥塞状态之间震荡,使网络带宽无法得到充分利用,同时较深的队列排队造成了较大的长尾时延,对时延敏感的I/O影响很大。端网协同主要根据网络可用带宽,准确调整端侧发送速率,这种源端与交换机之间的密切配合使网络中的队列近乎为空,同时能保持接近100%的带宽利用率。

4.2.3.2 FlexBuffer拥塞控制技术

DCN的流量调度策略需充分考虑流大小和数量的差异性。在大量小流少数大流的场景中,采用“小流优先、大流后传”的调度机制可显著降低平均FCT。其核心原理在于:若大流优先传输,将阻塞其后到达的大量小流,导致整体等待时间增加;而若优先调度小流,虽可能略微延长少数大流的传输延迟,但由于小流数量远多于大流,整体平均FCT得以有效降低,系统效率更优。

4.2.4 在网计算技术

统数据中心网络被视为“透明管道”,仅负责数据的转发与路由,所有计算任务均由服务器端完成。而在大模型训练、分布式推理等高性能场景中,频繁的集合通信(如AllReduce、AllGather)会产生大量中间数据传输,造成网络拥塞和端侧处理瓶颈。在网计算通过在交换机或网卡中嵌入可编程处理单元,在数据流经网络设备时实时执行特定计算任务。例如,在分布式训练中,多个GPU需将梯度数据汇总并平均,传统方式是将所有梯度传至某节点集中计算,而在网计算可在交换机中逐跳或分层完成梯度聚合,仅将最终结果传回终端。在网计算技术不仅可以减少传输数据量,而且可减少通信次数,从而提高集合通信效率并加速应用性能。

4.3 AI 大脑

AI大脑依托AI模型训练与多智能体协同,提供智能化运维。网络智能体包括变更Agent、故障Agent、自动化Agent、网维Copilot等。

网络数字地图采集网络、流量、设备、服务器、应用等信息还原全网拓扑,可以实时呈现网络状态和业务路径,精准自动识别网络故障,实现隐患的深入分析与预防,让网络故障率降低90%。同时,通过业务仿真校验功能,预先评估实施方案的风险,确保网络配置变更100%正确。网络智能体大幅降低运维人员的技术门槛同时提升运营决策效率。

相关内容

热门资讯

泽宇电力取得具有保护结构的电阻... 国家知识产权局信息显示,江苏泽宇电力设计有限公司取得一项名为“一种具有保护结构的电阻接地系统”的专利...
南京璟宏电子取得带支架型电感线... 国家知识产权局信息显示,南京璟宏电子有限责任公司取得一项名为“一种带支架型电感线圈”的专利,授权公告...
北京铭芯启睿申请抑制漏电的存储... 国家知识产权局信息显示,北京铭芯启睿科技有限公司申请一项名为“一种抑制漏电的存储器电路结构”的专利,...
小米取得中框模组及电子设备专利... 国家知识产权局信息显示,北京小米移动软件有限公司取得一项名为“中框模组及电子设备”的专利,授权公告号...
中煤科工申请粉尘云电荷极性和电... 国家知识产权局信息显示,中煤科工集团重庆研究院有限公司申请一项名为“一种粉尘云电荷极性和电荷量在线测...
思米电子取得一种可扩展的平板电... 国家知识产权局信息显示,深圳市思米电子有限公司取得一项名为“一种可扩展的平板电脑”的专利,授权公告号...
ETF资金榜 | 科创半导体E... 2026年1月19日,科创半导体ETF(588170.SH)收跌1.77%,成交16.16亿元。净流...
世运电路取得覆膜压合结构及线路... 国家知识产权局信息显示,广东世运电路科技股份有限公司取得一项名为“覆膜压合结构及线路板”的专利,授权...
雅创电子(301099)1月1... 证券之星消息,截至2026年1月19日收盘,雅创电子(301099)报收于48.9元,下跌3.68%...