本文共 282 字,大约阅读时间需要 1 分钟。
- 优化器,例如SGD,adam
- 学习率,乘以衰减系数
- dropout层,防止过拟合 (第一跑模型不加dropout,后期调优在LSTM后添加dropout层)
- 变量初始化(正交分布初始化,正态分布初始化,均匀分布初始化)
- 训练次数(验证集loss不减少则停止)
- 正则化(LR)
- 预训练(word2vec)
- 激活函数(sigmoid计算量大,饱和区梯度消失;tanh梯度消失;ReLU解决梯度消失但某些神经元可能永远不会激活,leaky ReLU可以解决ReLU问题,但没有完全证明leaky ReLU好于ReLU)
- 模型选择(CNN对轮廓敏感,RNN对连续序列敏感)
转载地址:http://ruwji.baihongyu.com/