分布式训练
模型并行vs.数据并行
模型并行
不同 node 输入相同数据,运行模型的不同部分
- 适用模型本身很大,否则一般不会采用模型并行,因为模型层与层之间存在串行逻辑
- 或者,模型本身存在一些可以并行的单元,模型的各个部分并行于多个计算设备上
2019-06-28
Distribute
不同 node 输入相同数据,运行模型的不同部分