2019 年,杭州,一个那时候还没多少人听过名字的量化基金老板,花了大概 2 亿人民币,在公司里搭了一个算力集群,叫萤火一号,公开资料说里面有 1100 张 GPU。
那会儿全世界还没听说过 ChatGPT。
距离 ChatGPT 上线,还有三年。
2021 年,他又开始搞萤火二号,预算到了 10 亿量级。后来媒体和公开资料反复提到,幻方在美国限制先进芯片出口之前,已经拿到了大批英伟达 A100,数量级在万卡附近。
这批卡当时看着很奇怪。
量化当然要算力,但一个基金公司提前几年堆到这种规模,而且专门往深度学习训练平台上堆,这就不是普通的「提高交易效率」了。
2022 年 11 月 30 日,ChatGPT 上线。
2023 年,DeepSeek 正式成立。
我们把这条时间线展开看一看。
梁文锋不是 2023 年看到 ChatGPT 火了才冲进 AI。
他是 2019 年就把下一代 AI 浪潮最贵的入场券,先买好了。
所以 DeepSeek V4 发出来后,我第一反应不是兴奋,反而有点担心。
不是担心它不够强。
而是担心另一个问题。
一个提前三年囤算力、靠好奇心和开源文化冲到世界牌桌上的公司,进入工业化竞争以后,还能不能保持原来的样子?
这事比 V4 本身更值得关注。
也正因为这样,发布公告最后那句话才显得重要。
不诱于誉,不恐于诽,率道而行,端然正己。
这句话不像给用户看的,更像给他们自己看的。
DeepSeek 真正稀缺的地方,不是它又发了一个模型。
而是它过去两年做了一次很少见的实验,试图用一种非典型组织方式,去挑战一个资本越来越密集的行业。
大模型公司一般有两种出身。
一种是大厂内生,带着云、入口、用户和销售团队。另一种是明星创业,先有创始人故事,再有融资,再有团队,再有发布会。
DeepSeek 两边都不像。
它长在幻方量化这棵树上。幻方不是互联网公司,也不是传统 VC。它是量化基金。
量化这个行当有个好处,也有个坏处。
好处是,它不太相信故事。
你说自己有战略,市场不听。你说自己有情怀,账户不听。模型今天错了,明天就亏钱。这个行业每天都在被现实鞭策。
坏处是,它容易把人训练成只相信数字、不太相信故事的冷峻模样。
所以 DeepSeek 一开始就很矛盾。它的钱来自一个极度现实的行业,但它做的是一个极度理想主义的事。
幻方赚钱,DeepSeek 烧钱。
幻方在市场里找确定性,DeepSeek 在 AGI 里找未知。
这个组合放在中国科技圈里非常少见。
幻方给 DeepSeek 的,不只是钱。
它给了 DeepSeek 三样东西。
第一是钱。
这不用绕弯子。大模型行业拼到最后,嘴上都讲算法,其实都是卡。没有 2019 年那 1100 张 GPU,没有 2021 年那批 A100,没有萤火二号这种基础设施,后面 V2、V3、R1、V4 这条线很难成立。
第二是时间差。
很多公司是 2023 年以后才意识到大模型要变天,开始抢人、抢卡、抢方向。DeepSeek 身后的幻方,至少在算力准备上早了几年。技术路线可以后来调整,但物理底座不是今天想买,明天就能到手。
第三是自由。
它给了 DeepSeek 一种不用第一天就跟资本解释自己的自由。
这点太重要了。
过去很多科技公司不是不想做原创,而是组织结构不允许。你要改模型结构,可能三个月没结果。你要重写底层系统,可能半年看不到收入。你要开源权重,销售团队会问怎么变现。你要把 API 价格打下来,财务会问毛利怎么办。
正常公司里,这些问题都很合理。
但合理多了,原创就死了。
过去一两年,国内几家头部大模型团队陆续有核心技术负责人公开出走,奔向更自由的研究岗位。外界觉得意外,业内一点都不意外。因为大家都明白,在一个每季度要汇报、每年要交答卷的组织里,真正想动底层架构的人最后都会走。
这就是那条算力线真正的价值。
不是「梁文锋很有钱」。
而是他在所有人还没准备进场之前,先把入场券买好了。
暗涌采访梁文锋时,有个细节我印象很深。
DeepSeek 办公区中间那排会议室,两侧的门都能随意推开。同事说,这是给偶然留出空隙。
这不是装修趣闻。
这是一个组织的隐喻。
很多公司也说鼓励创新,但实际流程是,先立项,写 OKR,排资源,过评审,等老板点头。一个年轻人突然有个想法,先得把它包装成领导能听懂的业务语言,包装完以后,那个想法差不多也凉了。
DeepSeek 反着来。
梁文锋说,他们一般不前置分工,而是自然分工。谁有想法,谁自己拉人讨论。想法显示出潜力,公司再调资源。更夸张的是,训练集群的卡和人,内部调动不设上限,有想法就可以调用,不需要一层层审批。
这就解释了为什么 DeepSeek 能做出一些「不划算」的事。
V2 那次 MLA 架构,外界看是技术突破。换个角度看,它更像是组织突破。
因为 Attention 架构这种东西,很多团队不是没人想改,而是想法很容易死在会议室里。
为啥?
不划算。
跟着 Llama 结构做应用,最稳。老板看得懂,投资人看得懂,客户也看得懂。你说要从模型结构上动刀,可能几个月没有结果,可能烧掉很多卡,最后还不一定成。
在多数公司,这种项目会被归类为「风险较高,暂缓推进」。
DeepSeek 偏偏给这种项目留了位置。
所以大家看 V4,参数很重要,但参数总会被追上。真正难复制的,是这家公司愿意给「暂时不划算」的研究留一块地方这件事。
一个社会要有原创,不能只有钱,还得有一批愿意容纳「暂时不划算」的人的组织。
贝尔实验室当年也是这样。
很多人都知道贝尔实验室牛,晶体管、信息论、Unix、C 语言,都是从那边长出来的。但大家经常忘了,它背后站着 AT&T 的垄断利润。
没有那笔稳定现金流,贝尔实验室很难养一群人长期做短期看不到商业结果的研究。
后来 AT&T 被拆,产业结构变了,贝尔实验室的气质也就慢慢变了。
施乐 PARC 也类似。
图形界面、鼠标、以太网,一堆改变世界的东西都在那边出现。但施乐自己没把这些东西变成最大的商业果实,苹果和微软吃到了后面的红利。
这两个例子放在 DeepSeek 身上,就很有意思。
DeepSeek 现在既像贝尔实验室,也像施乐 PARC。
像贝尔实验室,是因为它身后有幻方这类现金流,能养基础研究。
像施乐 PARC,是因为它把很多东西开出来,让整个生态受益,但商业果实未必都回到自己手里。
这就是开源的残酷。
大家嘴上都喜欢开源,但开源从来不是免费的午餐。
对用户来说,开源是福利。
对行业来说,开源是公共基础设施。
对公司来说,开源是一场豪赌。
你把模型权重放出来,把技术报告放出来,把 DeepEP、DeepGEMM、FlashMLA、3FS、Engram 这些工程库放出来,当然能获得声望,能吸引人才,能让全球开发者帮你扩散。
但问题是,声望不能直接发工资。
开源社区也不能直接给你买算力。
这就是 DeepSeek 迟早要面对的下半场。
上半场,它证明了开源能让一家中国小公司获得全球声量。
R1 那次就是最典型的例子。
2025 年 1 月 27 日,R1 登顶美区 iOS App Store 免费榜第一。当天英伟达单日跌了接近 17%,市值蒸发约 5890 亿美元。Sam Altman 在推特上承认 R1 令人印象深刻,尤其是在那个价格能做出来,并说 OpenAI 要加快一些产品发布。一个杭州团队放出的开源模型,让全球资本市场重新计算 AI 基础设施的成本曲线,让前沿公司被迫调整节奏。
这事在中国 AI 历史上很少见。
但下半场的问题来了。
你有声量以后,怎么变成可持续的组织?
你有开源以后,怎么留住写出这些东西的人?
你把价格打下来以后,怎么支撑下一代更贵的训练和推理?
你说自己不急着做应用,那别人基于你的模型把应用做起来以后,价值链里最肥的那一块还在不在你手里?
这些问题不是纯理论。
过去一年,据媒体报道,DeepSeek 核心研发至少走了五个人。一代大语言模型核心作者去了腾讯。V3 的一位核心贡献者据报道被小米用千万级年薪挖走。R1 的一位核心研究员去了字节 Seed,业内流传总包近一亿。OCR 系列和多模态方向的核心贡献者,也陆续离开。
挖角方给的价是 DeepSeek 的两到三倍。DeepSeek 自己的薪酬只是行业中等,期权没有外部估值,流动性接近零。对一个资深研究员来说,留着是一张纸,走是真金白银。
这里有个反常识的事,可能大多数人没注意到。
DeepSeek 出去的这几个人,走到哪,哪家公司的大模型团队方法论就换一次。有的去了大厂,大厂的长上下文方案开始跟 DeepSeek 思路越来越近。有的去了新势力,新势力的 RL 路线悄悄出现 R1 的味道。有的去了手机厂,手机厂的模型路径开始带 V3 的影子。
往后推三年看,这件事意味着什么?意味着 DeepSeek 一家 100 人的团队,正在把自己的技术范式复制到整个中国 AI 行业。从整个行业的角度看,这算得上基础设施级的扩散。但对 DeepSeek 自己来说,这就是实打实的技术线重建成本。
所以这件事对 DeepSeek 自己来说没那么轻松,只能算是行业的好消息。
说到这里,大家应该能理解我为什么说 V4 发出来后,反而更担心它。
不是担心 V4。
是担心 DeepSeek 从此要面对一个所有技术理想主义组织都逃不掉的关口。
早期靠信念,中期靠工程,后期靠资本和生态。
很多公司不是输在早期。
它们恰恰是在证明自己以后,开始变形的。
OpenAI 就是最典型的例子。
它最早也有很强的理想主义色彩,后来随着算力成本、人才竞争、产品化压力越来越大,逐渐变成了一个融资、商业化、平台化高度绑定的组织。
你可以说这是堕落。
也可以说这是成人世界。
你赢的时候,别人怕你。你慢的时候,别人踩你。你不融资,别人说你封闭。你融资,别人说你妥协。AI 圈就是这样,掌声和骂声永远一起来,而且往往来自同一批人。
因为大模型不是写诗。
它需要钱,需要卡,需要数据中心,需要企业客户,需要服务稳定性,需要生态伙伴,需要法律和政策处理能力。你想站在第一梯队,就不可能永远像一个书房里的研究小组。
DeepSeek 也一样。
所以最近外界传它寻求融资,我不觉得这是低头。
这更像是行业阶段变了。
同一个时间点,Anthropic 的隐含估值已经突破 1 万亿美元。做着同样前沿技术的 DeepSeek,这一轮传出的融资估值是 100 亿美元。一百倍的估值差里,有多少是真实的技术差?基本没有。全部是商业化模式差、融资策略差、品牌叙事差。
这不是 DeepSeek 不值钱,是它从来没打算按外部叙事给自己定价。
以前 DeepSeek 可以靠幻方的钱和一群年轻研究员往前冲。现在它面对的是全球用户、国产算力适配、Agent 工作流、1M 上下文服务、企业级稳定性、人才市场围猎。
这不是多发几篇论文能解决的。
当然了,融资也不是没有代价。
钱进来以后,报表就进来了。
估值进来以后,退出预期就进来了。
战略投资者进来以后,生态站队也会进来。
一个组织最怕的不是没钱。
最怕的是拿了钱以后,慢慢忘了自己为什么值钱。
DeepSeek 最值钱的东西,不是 1.6T 参数,也不是 1M 上下文。
参数会过时。
榜单会变。
价格会被别人继续打。
真正值钱的是那套稀缺组织能力,一群本土年轻研究员敢碰模型结构,敢在前沿问题上试错,敢把成果开出来,敢把价格压到很多人都用得起。
这套东西一旦被融资节奏、销售指标、生态绑定和层级管理磨平,DeepSeek 可能还会是一家不错的大模型公司,但它就不再是那个让人心里一动的 DeepSeek。
这就是「端然正己」真正难的地方。
不是站在掌声里说自己淡定。
而是在开始融资、开始扩张、开始被大厂围猎、开始被全球用户要求稳定服务的时候,还守得住最初那种愿意给「暂时不划算」的事情留位置的底色。
中国科技公司这些年有一个老问题。
做应用很强,做流量很强,做商业化很强,做供应链也很强。
但一到「定义问题」这一步,就容易发虚。
别人发论文,我们跟。
别人定框架,我们接入。
别人做平台,我们做应用。
别人讲未来,我们做落地。
这套分工不能说没用。过去几十年,它确实让中国公司跑得很快。
但跑得快不等于跑在前面。
DeepSeek 最重要的地方,是它短暂地证明了另一种可能。
不是永远跟随,也不是永远做应用,而是在某些关键点上,直接参与前沿技术的定义。
这件事对中国 AI 的意义,比 V4 这次跑分更大。
因为一个国家的科技生态,最终比的不是有没有几个爆款产品。
比的是有没有组织能长期容纳「暂时不划算」的人。
能不能让年轻人相信,原创不是一种奢侈品。
能不能让资本明白,真正的大钱有时候不是从最快变现的地方来,而是从最难的地方来。
梁文锋在采访里说过一句话,大意是,中国创新缺的不是资本,而是信心,以及不知道怎么组织高密度人才实现有效创新。
这句话放到今天更有意思。
因为 DeepSeek 自己也正在接受这句话的反向考验。
它已经证明了信心。
接下来要证明组织。
大家现在看 V4,当然可以看参数,看价格,看 1M 上下文,看 Agent 能力。
但我更建议大家看另一件事。
一年后,两年后,DeepSeek 会不会还在开那些「不划算」的口子。
还会不会允许年轻研究员从一个奇怪想法开始,拉人,调卡,跑几个月。
还会不会把关键工程库放到公共桌面上。
还会不会把价格压到更多人能用。
还会不会在资本进来以后,继续把技术路线放在商业叙事前面。
如果这些还在,DeepSeek 就算被某一版模型追上,也没什么大不了。
如果这些没了,它就算估值更高,也只是变成了又一家正常公司。
这才是那句古文的重量。
「不诱于誉」,不是说不喜欢掌声。
是 R1 之后,别让掌声把你改造成营销公司。
「不恐于诽」,不是说不怕质疑。
是融资、延期、人才流动、服务压力一起压过来时,别为了回应质疑把自己改造成平庸公司。
「率道而行」,不是装清高。
是你得知道自己到底靠什么走到今天。
「端然正己」,也不是说自己完美。
是诱惑和压力都是真的,但别把最值钱的东西弄丢。
所以我说,DeepSeek V4 不是王者归来。
它更像一次压力测试。
上半场,DeepSeek 证明中国 AI 能坐上牌桌。
下半场,它要证明,坐上去以后,腰还能不能直。