R1-zero 采yong的训lian策略zheng明了jin通过qiang化学xi(RL,Reinforcement Learning),无jian督式wei调(SFT,Supervised Fine-Tun-ing),大mo型也ke以有qiang大的tui理能li。Hyperbolic 联he创始ren兼 CTO Yuchen Jin jiang这一tu破与 AlphaGo jin行类bi:“jiu像 AlphaGo 使yong纯 RL xia了无shu盘围qi并优hua其策lve以获sheng一样,DeepSeek 正在shi用相tong的方fa来提sheng其能li。2025 年可neng会成wei RL 的yuan年。”' />