产品规格:
产品数量:
包装说明:
关 键 词:诚信的网络公司地址
行 业:商务服务 网站建设 网站推广
发布时间:2020-11-23
下面是 SWA 的工作原理。它只保存两个模型,而不是许多模型的集成:
个模型保存模型权值的平均值(WSWA)。在训练结束后,它将是用于预测的终模型。
第二个模型(W)将穿过权值空间,基于周期性学习率规划探索权重空间。
SWA权重更新公式
随机权值平均(Stochastic Weight Averaging,SWA)
随机权值平均只需快速集成的一小部分算力,就可以接近其表现。SWA 可以用在任意架构和数据集上,都会有不错的表现。根据论文中的实验,SWA 可以得到我之前提到过的更宽的极小值。在经典认知下,SWA 不算集成,因为在训练的终阶段你只得到一个模型,但它的表现超过了快照集成,接近 FGE。
SWA 的直觉来自以下由经验得到的观察:每个学习率周期得到的局部极小值倾向于堆积在损失平面的低损失值区域的边缘(上图左侧的图形中,褐域误差较低,点W1、W2、3分别表示3个独立训练的网络,位于褐域的边缘)。对这些点取平均值,可能得到一个宽阔的泛化解,其损失更低(上图左侧图形中的 WSWA)。
新的网络优化方法:随机权值平均
传统的神经网络集成
一般我们说的「集成」(ensemble),就是组合若干不同的模型,让它们基于相同的输入做出预测,接着通过某种平均化方法决定集成模型的终预测。这个决定过程可能是通过简单的投票或取均值,也可能是通过另一个模型,该模型基于集成模型的结果,学习预测正确值或标签。岭回归是一种可以组合若干个不同预测的结果的方法,Kaggle 上卫星数据识别热带雨林竞赛的冠军就使用过这一方法。
快照集成是在每次学习率周期末尾保存模型,然后在预测时使用。
集成应用于深度学习时,组合若干网络的预测以得到一个终的预测。通常,使用好几个不同架构的神经网络比较好,因为不同架构的网络一般会在不同的训练样本上犯错,因而集成的收益会更大。
快照集成使用周期性学习率退火
当然,你也可以集成同一架构的模型,也许效果会出乎意料的好。就好比这篇快照集成的论文,作者在训练同一个网络的过程中保存了不同的权值快照,然后在训练之后创建了同一架构、不同权值的集成网络。这么做可以提升测试的表现,同时也超省钱——因为你只需要训练一个模型、训练一次就好,只要记得随时保存权值就行。
你可以仔细阅读下文章开头提到的那的关于学习率的文章。如果你到目前为止还没有尝试过周期性学习率,那你真该去试试,它正在成为当前效果的、也标准的做法,它简单易上手,计算量很轻,可以说非常事半功倍了。