# AI时代的网络:需求来源与创新方向网络在AI大模型时代扮演着关键角色。随着大模型规模快速增长,多服务器集群成为解决模型训练的主要方式,这也是网络在AI时代地位提升的基础。相比过去单纯用于数据传输,如今网络更多用于同步显卡间的模型参数,对网络密度和容量提出了更高要求。大模型训练的网络需求主要来自三个方面:1. 模型规模快速增长,单卡算力已无法满足需求,需要通过网络连接多卡协同工作。2. 并行训练中,每次计算后卡间都需要进行参数对齐,对网络传输和交换提出高要求。3. 长时间训练中,网络故障会导致巨大损失,对网络稳定性要求极高。网络创新主要集中在以下方向:1. 传输介质更新:光模块在追求高速率同时,也在探索LPO、硅光等降本路线。铜缆在短距离连接中仍具优势。Chiplet、晶圆级扩展等新技术加速硅基互联探索。2. 网络协议竞争:片间通信协议与显卡强绑定,如NVLINK、Infinity Fabric等。节点间通信则主要是InfiniBand与以太网的竞争。3. 网络架构变革:叶脊架构虽广泛应用,但随着集群规模增大,新架构如Dragonfly、Rail-only等有望成为超大集群的发展方向。4. 交换机创新:除了电交换机升级外,光交换机也开始崭露头角,有望在超大规模集群中发挥作用。5. 数据中心互联:随着单中心规模接近上限,多中心互联成为新的研究方向,将带来长距离高速光模块等新需求。投资建议关注两个方向:一是通信系统核心环节,如中际旭创、新易盛、天孚通信等;二是通信系统创新环节,如长飞光纤、盛科通信等。风险提示包括AI需求不及预期、Scaling law失效、行业竞争加剧等。
AI时代网络创新:从大模型训练需求到投资机遇
AI时代的网络:需求来源与创新方向
网络在AI大模型时代扮演着关键角色。随着大模型规模快速增长,多服务器集群成为解决模型训练的主要方式,这也是网络在AI时代地位提升的基础。相比过去单纯用于数据传输,如今网络更多用于同步显卡间的模型参数,对网络密度和容量提出了更高要求。
大模型训练的网络需求主要来自三个方面:
模型规模快速增长,单卡算力已无法满足需求,需要通过网络连接多卡协同工作。
并行训练中,每次计算后卡间都需要进行参数对齐,对网络传输和交换提出高要求。
长时间训练中,网络故障会导致巨大损失,对网络稳定性要求极高。
网络创新主要集中在以下方向:
传输介质更新:光模块在追求高速率同时,也在探索LPO、硅光等降本路线。铜缆在短距离连接中仍具优势。Chiplet、晶圆级扩展等新技术加速硅基互联探索。
网络协议竞争:片间通信协议与显卡强绑定,如NVLINK、Infinity Fabric等。节点间通信则主要是InfiniBand与以太网的竞争。
网络架构变革:叶脊架构虽广泛应用,但随着集群规模增大,新架构如Dragonfly、Rail-only等有望成为超大集群的发展方向。
交换机创新:除了电交换机升级外,光交换机也开始崭露头角,有望在超大规模集群中发挥作用。
数据中心互联:随着单中心规模接近上限,多中心互联成为新的研究方向,将带来长距离高速光模块等新需求。
投资建议关注两个方向:一是通信系统核心环节,如中际旭创、新易盛、天孚通信等;二是通信系统创新环节,如长飞光纤、盛科通信等。
风险提示包括AI需求不及预期、Scaling law失效、行业竞争加剧等。