动手学深度学习v2
课程链接:https://courses.d2l.ai/zh-v2/
多 GPU 训练(待补充)
从零实现
简洁实现
分布式训练
假如数据集有 n 个类,那么批量大小 batch_size 最好不要超过 10n:
batchsize达到一定程度,每个batch内的样本的多样性不会比之前有多大增长,对梯度的贡献也不会比之前的batch大多少,但是大的batchsize会带来更多的训练时间,就造成了训练有效性下降。
假设总共有10000个样本 1. 如果一个batch是100, 那么一个epoch可以迭代100次梯度; 2. 如果一个batch是1000, 那么一个epoch只能迭代10次梯度, 如果想要收敛, 意味着需要更多epoch.