相当令人震撼的工作,特别是 deepseek-r1-zero。
没有任何监督训练,纯强化学习首先,驳斥了“感谢openai开源”、“蒸馏openai-o1”的说法,deepseek-r1-zero 模型在预训练之后,是 完全没有经过任何监督学习的,也就是说没有使用任何其他思维链模型(以及人类)的输出。
从 deepseek-v3 基座,直接进行强化学习,即可解锁 o1 级别的思维链能力。
只看答案,不搞花里胡哨deepseek-r1-zero 在强化学习中,只有两种奖励: 第一种:(…。