Distribute

分布式训练

模型并行vs.数据并行

模型并行

不同 node 输入相同数据,运行模型的不同部分

  1. 适用模型本身很大,否则一般不会采用模型并行,因为模型层与层之间存在串行逻辑
  2. 或者,模型本身存在一些可以并行的单元,模型的各个部分并行于多个计算设备上