面向分布式机器学习的数据中心网络资源配置和传输优化

发布时间：2024-03-11 06:33

　　为了解决日益庞大的数据集与参数量而带来的机器学习训练耗时过长的问题,分布式机器学习(Distributed Machine Learning,DML)成为加速机器学习模型训练的重要手段之一。DML在进行参数同步时需要多个主机间频繁的网络通信。然而,应用在DML网络传输中的远程直接存取技术(Remote Direct Memory Access,RDMA)并不能很好地支持DML同步时的网络传输特性。本文将由此出发,设计面向DML的网络传输优化。首先,为了解决因网络多瓶颈问题而产生的慢流滞后DML同步进程问题,本文提出了平衡完成时间协议(Balanced Completion Time Protocol,BCTP)。BCTP协议由网络节点记录维护数据流的传输状态,根据网络状态和流的传输状态进行速率的分配,采用了李亚普若夫优化进行分配速率的求解,并由服务器进行速率的调控。在此基础上,本文还设计了BCTP-NIC、BCTP-Switch和BCTP-Hybrid以满足不同的网络设备部署BCTP协议的需求。仿真实验结果表明BCTP能够实现高达20%-45%的DML同步网络通信开销减少。更进一步地,...

【文章页数】：78 页

【学位级别】：硕士

【部分图文】：

图5-3节点的速率对比

哈尔滨工业大学工学硕士学位论文-48-和BCTP作比较。接收节点的带宽平均值对比如图5-3所示，可知BCTP协议中工作节点带宽平均值的实际值与理论值较为接近且高于DCQCN中工作节点的带宽平均值。每个流的传输速率平均值如图5-4所示，由图可知BCTP协议流的速率分配能够较为贴切理....

图5-8Fat-Tree大规模节点All-Reduce同步机制下各节点的接收情况

哈尔滨工业大学工学硕士学位论文-51-传输模型为AlexNet、ResNet50和VGG-16下的一次迭代传输。此实验模拟了Fat-Tree和BCube网络拓扑下，DML在Diffuse阶段向其他工作节点传输参数的过程。Fat-Tree和BCube的仿真实验结果如图5-8和图5-....

图5-9BCube大规模节点All-Reduce同步机制下各节点的接收情况.

哈尔滨工业大学工学硕士学位论文-51-传输模型为AlexNet、ResNet50和VGG-16下的一次迭代传输。此实验模拟了Fat-Tree和BCube网络拓扑下，DML在Diffuse阶段向其他工作节点传输参数的过程。Fat-Tree和BCube的仿真实验结果如图5-8和图5-....

图5-10流完成时间

哈尔滨工业大学工学硕士学位论文-52-表5-5大规模节点下，两种协议实验对比TopologyModelDCQCNBCTPTimereductionFat-TreeResNet50196.36ms80.16ms59.18%AlexNet467.08ms197.24ms57.77%V....

本文编号：3925968

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3925968.html

上一篇：基于ANSYS的单片机可靠性仿真分析
下一篇：没有了