DeepSeek 改进残差连接,性能更强还不崩溃
AI圈就是卷,DeepSeek迎着元旦发了篇论文,稍作解读。
1、深层网络的困境
大模型由几十层甚至上百层计算单元堆叠而成。数据从第一层流入,逐层处理后从最后一层流出。问题在于:如果每一层都让数据的数值稍微变大,几十层累积下来就会爆炸式增长;反过来,如果每层都让数值变小,最后就趋近于零。这就是"梯度爆炸"和"梯度消失",会导致训练崩溃。
2、残差连接:十年前的解决方案
2015年,何恺明提出了一个简洁的设计:在每一层的计算之外,额外开一条"直通道",让原始数据不经处理直接传到下一层。直通道里的数据乘以 1,不放大、不缩小。无论网络多深,这部分数据始终保持原样。
这个设计叫"残差连接",支撑了过去十年几乎所有深度学习的成功。
3、HC:让直通道也参与学习
残差连接虽然稳定,但直通道完全不参与学习,只是被动保底。能不能让它也"干点活"?
2024年提出的"超连接"(HC)做了尝试:把直通道从一条扩展为四条,且数据通过时不再乘以固定的 1,而是乘以一组网络自己学出来的数字。
可以想象成调音台上的四个音轨。每一层可以调节怎么混合——音轨 1 调小点,音轨 2 调大点。怎么混最有效,是网络自己学出来的。问题是调节没有限制,可能把某个音轨放大太多导致爆音,或调得太小导致消音。60 层累积下来,论文显示放大倍数峰值达到 3000,训练在约 12000 步时崩溃。
4、mHC:可以混音,但总音量守恒
mHC 沿用四音轨设计,也允许调节混合方式,但加了一条规矩:总音量必须不变。可以把音轨 1 调小、音轨 2 调大,但四个音轨加起来的总量必须和之前一样。现实中的调音台没有这个约束,这里只是借用来说明"可以重新分配,但总量守恒"。
总量不变,意味着放大倍数理论上是 1。实际工程中为了计算效率用了近似算法,放大倍数是 1.6,但比 HC 的 3000 已是天壤之别,训练全程稳定。
5、效果
27B 模型测试中,mHC 相比传统方案:复杂推理从 43.8% 提升到 51.0%,阅读理解从 47.0% 提升到 53.9%。训练时间仅增加 6.7%。
6、定位
论文将 mHC 定位为"HC 的灵活实用扩展"。在学术语境里,这是克制的自我评价:说"扩展"而非"突破",意味着是现有方法上的改进;说"实用",强调工程上能落地。
