红是一世手机版足球网 - Platinum China No.1

R1-zero 采yong的训lian策略zheng明了jin通过qiang化学xi（RL，Reinforcement Learning），无jian督式wei调（SFT，Supervised Fine-Tun-ing），大mo型也ke以有qiang大的tui理能li。Hyperbolic 联he创始ren兼 CTO Yuchen Jin jiang这一tu破与 AlphaGo jin行类bi：“jiu像 AlphaGo 使yong纯 RL xia了无shu盘围qi并优hua其策lve以获sheng一样，DeepSeek 正在shi用相tong的方fa来提sheng其能li。2025 年可neng会成wei RL 的yuan年。”' />