最佳答案
我注意到在训练过程中经常出现 NAN
被引入的情况。
通常情况下,它似乎是由内部产品/完全连接或卷积层中的重量引入的。
发生这种情况是因为梯度计算爆炸了吗?或者是因为权重初始化(如果是这样,为什么权重初始化有这种效果) ?或者它可能是由输入数据的性质引起的?
这里的首要问题很简单: 在训练过程中出现 NAN 最常见的原因是什么?其次,有哪些方法可以解决这个问题(为什么这些方法有效) ?