大模型时代:华为让以太网进化,打通数据运力动脉
随着大模型时代的到来,算力需求呈现出指数级增长。据统计,2012年到2019年AI训练算力平均每100天翻倍,而GPU单卡算力则需要2-3年增长一倍。GPU卡集群成为应对算力需求高速增长的方案,随着AI模型进入万亿参数模型时代,GPU卡的数量也提高到万卡规模,据了解,OpenAI使用25000张A100 GPU训练1.8万亿参数的GPT4。
正是在AI计算集群支撑下,超万亿参数大模型的高效训练成为可能,大模型加速进入各行各业。在最近举行的华为年度最重要的ICT盛会上,“大模型”成为最重要的关键词,华为从算力、运力、存力等多个维度全线出击,使能百模千态,赋能千行万业,加速行业智能化。
其中,华为最令人关注的重磅创新之一,来自数据中心网络,华为对以太网进行进化,研发出超融合以太技术,正是这项创新,让数据中心网络释放出最大潜力,使得上万张AI板卡高效协同,成为万亿参数大模型时代的坚固基石。
为数据中心网络装上智慧调度大脑
想象一下,一个超大型机场如果没有调度系统,多条跑道同时起飞降落飞机的时候会发生什么?
这样的景象其实也发生在数据中心。随着AI进入大模型时代,计算也进入分布式训练的时代,即计算任务以数据并行、流水线并行、张量并行等分布式并行方式分配到多台服务器上,以加快模型训练速度。这个时候,多台服务器之间就需要同步参数、梯度、中间变量,在大模型训练时,单次参数同步量高达100MB-几GB的量级。如何协作数万张处理器,保证不随着算力规模的增大而效率大幅降低,避免出现1+1<2的效果,是一大问题。
并行计算下,网络负载均衡就是其中的关键。无论是数据并行,还是流水线并行,或是张量并行,多机之间都需要通过多次AllReduce集合通信操作来传递计算结果。AllReduce集合通信的特征是多打一,流数少、单流带宽大,同一时间均是点到点通信,其完成需要所有点对点通信都成功完成。这时候就存在“木桶效应”,木桶中盛的水由最短的木板所决定,而AllReduce的完成时间,也由其中最慢的点对点通信时间所决定。
正是因为这种木桶效应,智算数据中心网络会遇到网络负载不均衡问题,如何进行链路的负载均衡成为关键。在没有实现全局负载均衡的网络中,整体通信效率仅在30%-56%之间,这意味着有一半以上的网络性能没有被高效利用,同样,这意味着整个AI集群的算力效率只有不到一半。因此,AI集群网络的吞吐效率将直接影响整个智算中心集群的效率。