学术报告

您所在的位置:首页  学术交流  学术报告

A duality framework for analyzing random feature and two-layer neural networks

发布时间:2025-11-14阅读次数:10

深度学习的成功伴随着一个核心问题:为何过参数化模型依然能获得强大的泛化能力?对神经网络非线性动力学的研究为此提供了关键视角,其中,由小初始化诱导的“凝聚现象” 是非线性动力学中的一个重要特征。我们以两层卷积网络为研究对象,在理论上证明了这类网络在训练初始阶段凝聚现象的发生机制,并且在实验中进行验证。然而,小初始化也存在训练不稳定性的问题,尤其易于引发损失尖峰(loss spike)。我们发现Adam优化器中存在一种由其预条件矩阵导致的尖峰机制:较大的?2使得二阶动量对梯度变化响应迟缓。基于此,我们从理论和实验上将尖峰演化过程刻画为五个阶段,并提出一种基于梯度方向曲率的有效预测器。我们在从小型网络到大规模Transformer的多种模型上验证了该机制,并展示了相应的缓解策略。

周章辰20251118.pdf