多 GPU 训练（待补充）

从零实现

简洁实现

分布式训练

假如数据集有 n 个类，那么批量大小 batch_size 最好不要超过 10n：

batchsize达到一定程度，每个batch内的样本的多样性不会比之前有多大增长，对梯度的贡献也不会比之前的batch大多少，但是大的batchsize会带来更多的训练时间，就造成了训练有效性下降。

假设总共有10000个样本 1. 如果一个batch是100, 那么一个epoch可以迭代100次梯度; 2. 如果一个batch是1000, 那么一个epoch只能迭代10次梯度, 如果想要收敛, 意味着需要更多epoch.