文章详情

过拟合如何避免

有数据集扩增、改进模型、正则化方法、Dropout、提前结束训练等方法。

数据集扩增

数据集扩增就是要得到更多符合要求的数据。在物体分类(object recognition)问题中,数据扩增已经成为一项特殊的有效的技术。物体在图像中的位置、姿态、尺度,整体图片敏感度等都不会影响分类结果,所以我们就可以通过图像平移、翻转、缩放、切割等手段将数据库成倍扩充。

改进模型

对于模型复杂,最简单暴力的做法就是减少网络的层数和神经元的个数,但是一般不是很提倡这种做法,是因为人为并不能很好掌控删减的程度。Early Stopping的做法就是运行优化方法直到若干次在验证集上的验证误差没有提升时候停止。一般做法是,在训练的过程中,记录到目前为止最好的验证正确率(validation accuracy),当连续10次Epoch,validation accuracy没有达到最佳Accuracy,则认为accuracy不再有所提升,此时就可以停止迭代了。

正则化方法

正则化是在损失函数上添加对训练参数的惩罚范数,添加范数惩罚对需要训练的参数进行约束,防止过拟合。常用的L1范数、L2范数,L1范数惩罚项目的将参数绝对值最小化,L2惩罚项目的将参数的平方和最小化。

Dropout

在深度学习网络中最常用的正则化技术通过引入Dropout层,随机丢掉一些神经元,即在每个训练批次中,忽略一定的神经元数量,减轻网络的过拟合现象。

提前结束训练

当loss不在减小的时候,应该提前结束训练2。

以上方法可以帮助你有效地避免过拟合,提高模型的泛化能力。在实际应用中,你可以根据具体情况选择合适的方法。

延伸阅读

数据预期差如何定价

量化模型输入特征有哪些

样本内外测试意义

机器学习预测汇率难点

情绪指标如何用于交易

CFTC仓位数据如何解读

投机净多头意味什么

基金持仓与反转关系

美元指数权重构成

交易期望值如何计算