DeepSeek元旦论文讲了啥

DeepSeek 改进残差连接，性能更强还不崩溃

AI圈就是卷，DeepSeek迎着元旦发了篇论文，稍作解读。

1、深层网络的困境

大模型由几十层甚至上百层计算单元堆叠而成。数据从第一层流入，逐层处理后从最后一层流出。问题在于：如果每一层都让数据的数值稍微变大，几十层累积下来就会爆炸式增长；反过来，如果每层都让数值变小，最后就趋近于零。这就是"梯度爆炸"和"梯度消失"，会导致训练崩溃。

2、残差连接：十年前的解决方案

2015年，何恺明提出了一个简洁的设计：在每一层的计算之外，额外开一条"直通道"，让原始数据不经处理直接传到下一层。直通道里的数据乘以 1，不放大、不缩小。无论网络多深，这部分数据始终保持原样。

这个设计叫"残差连接"，支撑了过去十年几乎所有深度学习的成功。

3、HC：让直通道也参与学习

残差连接虽然稳定，但直通道完全不参与学习，只是被动保底。能不能让它也"干点活"？

2024年提出的"超连接"（HC）做了尝试：把直通道从一条扩展为四条，且数据通过时不再乘以固定的 1，而是乘以一组网络自己学出来的数字。

可以想象成调音台上的四个音轨。每一层可以调节怎么混合——音轨 1 调小点，音轨 2 调大点。怎么混最有效，是网络自己学出来的。问题是调节没有限制，可能把某个音轨放大太多导致爆音，或调得太小导致消音。60 层累积下来，论文显示放大倍数峰值达到 3000，训练在约 12000 步时崩溃。

4、mHC：可以混音，但总音量守恒

mHC 沿用四音轨设计，也允许调节混合方式，但加了一条规矩：总音量必须不变。可以把音轨 1 调小、音轨 2 调大，但四个音轨加起来的总量必须和之前一样。现实中的调音台没有这个约束，这里只是借用来说明"可以重新分配，但总量守恒"。

总量不变，意味着放大倍数理论上是 1。实际工程中为了计算效率用了近似算法，放大倍数是 1.6，但比 HC 的 3000 已是天壤之别，训练全程稳定。

5、效果

27B 模型测试中，mHC 相比传统方案：复杂推理从 43.8% 提升到 51.0%，阅读理解从 47.0% 提升到 53.9%。训练时间仅增加 6.7%。

6、定位

论文将 mHC 定位为"HC 的灵活实用扩展"。在学术语境里，这是克制的自我评价：说"扩展"而非"突破"，意味着是现有方法上的改进；说"实用"，强调工程上能落地。