Featured image of post 硅谷还在堆卡,DeepSeek 却在做题:2025 最后一天,他们用一道数学公式重写了底层

硅谷还在堆卡,DeepSeek 却在做题:2025 最后一天,他们用一道数学公式重写了底层

2025 年终于翻篇了。回看过去这一年,全球 AI 行业简直是在 “神仙打架”。

2025 年终于翻篇了。

回看过去这一年,全球 AI 行业简直是在 “神仙打架”。从美国的 OpenAI 到中国的各大厂,大家都在疯狂迭代,没有谁敢在舒适圈里躺平。 但在如此窒息的竞争节奏下,DeepSeek 依然是个异类。 无论是综合能力极强的 V3,还是推理模型 R1,亦或 Coder 系列,DeepSeek 总能以一种 “不仅强,而且便宜得不可思议” 的姿态出现。

大家都在研究他们的显卡利用率,研究他们的 MoE 路由。 然后 2025 年的最后一天,DeepSeek 又默默丢出了一篇名为 mHC 的论文 。

图片

看完这篇论文,我才真正理解了 DeepSeek 这个生态为何能爆发得如此之快。 这不仅仅是一项技术优化,更是一种敢于挑战权威和规则的勇气。

当大多数团队还在常规的架构上修修补补时,DeepSeek 的研究员们已经把手术刀伸向了模型最基础、也最敏感的 “血管”—— 残差连接。 这是一次极高风险的赌博:他们为了追求极致的模型容量,选了一条理论上极不稳定的路,用一道优雅的数学公式,硬生生把这条路给铺平了。

DeepSeek 最可怕的不是某一个具体的模型,而是他们对底层数学原理的掌控力。正是这种能力,支撑起了从 R1 到 V3 这一条条产品线的快速突破。DeepSeek 的护城河,比我们想象的还要深

即使是 GPT-5,也逃不掉的 “老祖宗之法”

在深度学习领域,网络越深,越需要一条 “直通车”。残差(ResNet)就是那条车道:不一定唯一,但几乎是默认选项。

不管是 GPT-5 还是 Gemini 3,扒开代码,核心逻辑都长这样:

⚡ 代码片段下一层的输入 = 上一层的输出 + 这一层的变化

这叫恒等映射。它像一条笔直的管道,保证信号能安全地流到第 100 层。从何凯明的《Deep Residual Learning for Image Recognition》开始,十年了,哪怕是最激进的架构师,也不敢轻易动这个地方。

但创新的接力赛其实已经开始了。 2024 年 9 月,字节跳动(ByteDance) 的 Seed 团队率先搞出了一个叫 Hyper-Connections (HC) 的理论 (https://arxiv.org/abs/2409.19606)。 这帮人的脑洞很大:为什么要死守着原封不动?把信号打散、揉碎,多搞几条路混合在一起,模型的脑容量不是更大吗?

不得不说,字节跳动这个想法很有前瞻性,但在当时来看,它更像是个 “半成品”。 因为它有个致命缺陷:极其不稳定。对于追求稳妥的大模型团队来说,这种 “理论收益高、实际风险大” 的方案,通常看完论文就扔进收藏夹吃灰了 —— 毕竟谁也不想拿几千万的显卡去赌一个可能会炸的模型。

但 DeepSeek 的工程师思路不太一样。 他们看完论文,没盯着风险看,而是死死盯着那个 “收益”。 他们觉得,这玩意儿虽然现在会炸,但原理没毛病。只要能想办法给它装个 “刹车”,它就是跑得最快的。 于是,他们做了一个非常务实的决定:把这个友商没跑通的架构捡起来,自己动手修好,然后真的用到了自家的大模型上。

但这毕竟是给高速行驶的赛车换引擎,稍微手抖一下就是车毁人亡。DeepSeek 真的稳住了吗?

压力测试

DeepSeek 为了证明自己的方案(mHC)到底稳不稳,他们在 27B 的模型上,用 mHC(灰线) 和 HC(蓝线)做了个对比测试:

图片

大家注意看这两条线的走向。

●左图 (a) :蓝线(HC)的 Loss Gap 在 12000 步之前,它还在 0 附近徘徊;但过了 12000 步,蓝线突然旱地拔葱,直线飙升

●右图 (b) :蓝线(HC)的梯度在 12000 步左右突然开始疯狂抖动,全是毛刺。

HC 在训练进行到 12000 步时,梯度范数(Grad Norm)突然开始剧烈震荡。 这意味着什么?意味着模型内部的信号传导出问题了,每一次参数更新都在 “乱指路”。这就好比赛车开到 200 码时,方向盘突然开始疯狂抖动,车身剧烈摇摆。结果就是车彻底撞毁了,因为右边的梯度乱了,左边的 Loss 自然就崩了。 蓝线(Loss Gap)的瞬间飙升,就是梯度失控的直接后果。模型不仅学不到新东西,反而把之前学到的也吐出来了。这就是典型的 “训练崩溃”。

再看那条灰线,对比简直不要太强烈。 无论右边的梯度怎么波动,加了数学约束的 mHC(灰线)始终把梯度按得死死的,平滑得像条直线。 因为内部稳住了,外部的表现自然就稳了 —— 所以在左图中,它的 Loss 始终贴着基准线走,完全没有出现暴涨。

DeepSeek 用这组图证明了: HC 的崩溃不是偶然,而是必然(右图的梯度震荡)。 而 mHC 成功的原因是数学约束带来的平稳。

3000 倍的隐形 “通胀”

既然灰线(mHC)在结果上已经赢了,那我们必须得搞清楚:蓝线(HC)到底是怎么输的?

DeepSeek 的工程师对模型内部的信号做了一次深度 CT 扫描。他们想看看,信号在网络里传导时,到底是被放大了还是缩小了。

图片

这是一组极具欺骗性的对比。

●左图 (a) 看单层:看起来很正常。每一个单独的层(Single Layer),信号增益都在 1 附近波动,稍微大一点点而已。

●右图 (b) 看叠加:灾难发生了。当几十层叠加在一起(Composite Mapping),那个微小的 “一点点” 被指数级放大,蓝线直接飙到了天际。

这两张图揭示了 HC 架构最隐蔽的致命伤。如果你只看单层(左图),你会觉得 HC 没啥大毛病。它的信号放大倍数也就 1.1、1.2 的样子。很多工程师看到这就放心了:“这不挺稳的嘛?” 但别忘了,大模型动不动就是 60 层起步。真正的恐怖在右图。 当信号穿过 60 层网络时,那些看似无害的 1.1 倍被连续相乘。 1.1 的 60 次方=304。 如果是 1.2 呢?结果是 56000

图中蓝线(HC)清晰地记录了这个失控的过程:在深层网络,反向传播的梯度增益(Backward Gradient Gain)最高飙到了 3000 。这是什么概念? 正常模型的信号增益应该是 1(能量守恒)。 但蓝线飙到了 3000。这就好比你在第一层对模型耳语了一句 “你好”,传到第 60 层时,变成了 3000 个广场舞大喇叭同时贴着你耳朵尖叫。

在这种噪音下,梯度瞬间爆炸,前面提到的梯度震荡就是这么来的。这简直是个死局: 想聪明(用宽连接),就会爆炸;想稳定(用老架构),就得忍受平庸。

一道 “小学数学题” 救场

面对这个死局,DeepSeek 的解法简单得很。 既然信号会因为连乘而无限放大,那就给它加个 “会计”,强制它遵守能量守恒。

他们引入了一个概念:双随机矩阵(Doubly Stochastic Matrices)。 名字很唬人,但本质极简。它其实就是强制模型做 “加权平均” 。

DeepSeek 给那个狂暴的混合矩阵定了一条死规矩: “不管你怎么折腾,你每一行的权重加起来必须等于 1,每一列加起来也必须等于 1。

这就是数学的魔力: 你想想,如果你计算一组数的 “平均值”,结果有可能超过最大值吗?绝对不可能。DeepSeek 证明了:这种矩阵就算乘上一万次,它依然守规矩,永远不会让能量溢出(信号范数 ≤ 1)。

效果立竿见影。看看这组热力图对比,这就是 “无序” 和 “有序” 的区别:

图片

●第一排是失控的 HC 方案,那些深蓝色的色块代表数值极大的异常点(有的飙到了 268.9,有的跌到 -255.2),整个矩阵一片混乱

●第二排是加了 “紧箍咒” 的 mHC 方案,颜色立刻变浅且均匀,所有数值被死死锁在 0 到 1 之间,井井有条。

那个飙到 3000 倍的信号核爆,被瞬间按回了 1.6 倍 。 面对 3000 倍的信号核爆,DeepSeek 没有用工程上的 “补丁”(比如强行截断数值),而是从数学底层定义了一个新的流形(Manifold)。这道 “数学题” 的真面目,其实就是著名的 Birkhoff 多面体投影

生态爆发的秘密

如果你觉得这只是个学术实验,那就太天真了。注意看原文中这句容易被忽略的话:

This conclusion is further corroborated by our in-house large-scale training experiments

“这一结论得到了我们内部大规模训练实验的进一步证实。”

这句话翻译过来就是:虽然这篇论文展示的是 27B 小模型的实验数据,但我们在内部那个庞大的模型矩阵(包括大家熟知的 V3 等)身上,早就验证过这一套了

这就解释了为什么 DeepSeek 总能比别人 “多算一步”: 当行业还在卷应用层时,他们已经在底层的连接方式上,用 6.7% 的额外计算时间 ,换来了一个容量更大、表达更强、且绝不炸膛的通用架构。正是这种底层技术的溢出,才支撑起了 DeepSeek 从 V3R1 再到 Coder 的全线开花。

另外,离春节不远了,你应该知道我要说什么。哈哈

总结

读完这篇论文,我最大的感受是:DeepSeek 赢的不是显卡数量,而是对数学的直觉。

如果非要用一句话总结这篇论文,我想引用一位网友的神评论:

以前的模型像个 被牵着手的乖孩子(ResNet),安全但学不会跑。 后来大家撒手让它跑,结果它是 撒手没,跑两步就疯了(HC)。

DeepSeek 做的事,就是给孩子画了个 圈(双随机矩阵)。 不管你在圈里怎么跑、怎么翻跟头都行,但绝对不许出圈。

于是,孩子既学会了跑,又没跑丢。

当硅谷还在比拼谁的 H100 更多时,DeepSeek 用一道数学题证明了: 有时候,约束才是最大的自由。

附录

●DeepSeek 的跨年 “交卷” 之作:https://arxiv.org/pdf/2512.24880

●字节跳动的大胆尝试:https://arxiv.org/abs/2409.19606

●不可动摇的 “老祖宗”:https://arxiv.org/abs/1512.03385

●那道神奇的 “数学题”:Sinkhorn, R. (1964). A Relationship Between Arbitrary Positive Matrices and Doubly Stochastic Matrices.

位旅人路过 次翻阅 初次见面