Featured image of post DeepSeek-R1:从零开始,到超越人类

DeepSeek-R1:从零开始,到超越人类

DeepSeek-R1 是 DeepSeek 团队推出的首代开源推理大模型,核心突破在于纯强化学习(RL)训练可行性的验证,以及结合冷启动数据的多阶段优化策略,使其在数学、编程等推理任务上达到 OpenAI o1-1217 级别。

位旅人路过 次翻阅 初次见面