0. GOAL
各类评估指标整理汇总,影响因素,提升方法
1. 性能相关
-
基本概念
-
名称 内容 备注 NVLink 节点内device连接方式之一 PCIe 高速串行计算机扩展总线标准 节点内device连接方式之一 Infinit Band (IB) 节点间device连接方式(多机) ASIC 专用集成电路 FPGA 现场可编辑门阵列 SHArP 软硬结合的通信协议,实现在了NVIDIA Quantum HDR Switch的ASIC里 把聚合计算(reduce)从节点卸载到网络(交换机)中进行,相比tree和ring算法收发数据量大幅减少参考:https://www.zhihu.com/question/63219175/answer/206697974
-
-
性能指标
-
名称 内容 备注 Size(Bytes) 数据大小 Description 测试描述(数据量*字节数) Duration 耗时 Throughput(Gbps, fps, ...) 吞吐,每秒处理的图片/samples/文本/...数 一般用iter e2e时间来计算:$thoughput = \frac{n_{card}*batchsize}{e2e_time}$ BusBW(Gbps) 带宽 扩展率 网络训练效率与卡数关系的衡量指标 $扩展率=\frac{throghput_{n card}}{n*throughput_{1card}}*100%=\frac{e2e_time_{1card}}{e2e_time_{ncard}}*100%$
-
-
性能测试
大约 4 分钟