郑州一级的网络公司排名 欢迎咨询
价格:10.00起
产品规格:
产品数量:
包装说明:
关 键 词:郑州一级的网络公司排名
行 业:商务服务 网站建设 网站推广
发布时间:2019-12-21
宽的极值和窄的极值。宽的局部极小值在训练和测试过程中产生类似的损失;但对于窄的局部极小值而言,训练和测试中产生的损失就会有很大区别。这意味着,宽的极值比窄的极值有更好的泛化性。
平坦度可以用来衡量一个解的优劣。其中的原理是,训练数据集和测试数据产生相似但不尽相同的损失平面。你可以将其想象为测试平面相对训练平面而言平移了一点。对窄的解来说,一个在测试的时候损失较低的点可能因为这一平移产生变为损失较高的点。这意味着窄的(尖锐的)解的泛化性不好——训练损失低,测试损失高。另一方面,对于宽的(平坦的)解而言,这一平移造成的训练损失和测试损失间的差异较小。
我解释了两种解决方案之间的区别,是因为这篇论文的提出的方法、也是我这篇文章重点介绍的方法,就能带来讨人喜欢的、宽的(平坦的)解。
下面是 SWA 的工作原理。它只保存两个模型,而不是许多模型的集成:
个模型保存模型权值的平均值(WSWA)。在训练结束后,它将是用于预测的终模型。
第二个模型(W)将穿过权值空间,基于周期性学习率规划探索权重空间。
SWA权重更新公式
SWA 的直觉来自以下由经验得到的观察:每个学习率周期得到的局部极小值倾向于堆积在损失平面的低损失值区域的边缘(上图左侧的图形中,褐域误差较低,点W1、W2、3分别表示3个独立训练的网络,位于褐域的边缘)。对这些点取平均值,可能得到一个宽阔的泛化解,其损失更低(上图左侧图形中的 WSWA)。
-/gbafcih/-