梯度回传之后 loss一直是0 (从第二个log print开始), 请问这是为什么呢。
[TrainProgress] step 4/50528 (0.0079%)
{'loss': 0.0000000000, 'grad_norm': 2.0, 'learning_rate': 5.928853754940711e-09, 'epoch': 7.916402786573781e-05}
{'loss': 0.0, 'grad_norm': 2.0, 'learning_rate': 5.928853754940711e-09, 'epoch': 7.916402786573781e-05}
梯度回传之后 loss一直是0 (从第二个log print开始), 请问这是为什么呢。
[TrainProgress] step 4/50528 (0.0079%)
{'loss': 0.0000000000, 'grad_norm': 2.0, 'learning_rate': 5.928853754940711e-09, 'epoch': 7.916402786573781e-05}
{'loss': 0.0, 'grad_norm': 2.0, 'learning_rate': 5.928853754940711e-09, 'epoch': 7.916402786573781e-05}