机器学习训练时,Mini-Batch的大小优选为2的幂,如256或512。它背后的原因是( )。
A.Mini-Batch为偶数的时候,梯度下降算法训练的更快 B.Mini-Batch设为2的幂,是为了符合CPU、GPU的内存要求,利于并行化处理 C.不使用偶数时,损失函数是不稳定的 D.以上答案都不正确"正确答案B
机器学习训练时,Mini-Batch的大小优选为2的幂,如256或512。它背后的原因是( )。
A.Mini-Batch为偶数的时候,梯度下降算法训练的更快 B.Mini-Batch设为2的幂,是为了符合CPU、GPU的内存要求,利于并行化处理 C.不使用偶数时,损失函数是不稳定的 D.以上答案都不正确"正确答案B