歸藏的AI工具箱 on 文字轨迹

歸藏的AI工具箱 on 文字轨迹https://ixxmu.github.io/tags/%E6%AD%B8%E8%97%8F%E7%9A%84ai%E5%B7%A5%E5%85%B7%E7%AE%B1/Recent content in 歸藏的AI工具箱 on 文字轨迹Hugozh-cnFri, 07 Feb 2025 14:32:57 +0000显存狂降80%！Unsloth黑科技优化GRPO流程，让人人都能训自己的Deepseek R1https://ixxmu.github.io/posts/2025-02/%E6%98%BE%E5%AD%98%E7%8B%82%E9%99%8D80__unsloth%E9%BB%91%E7%A7%91%E6%8A%80%E4%BC%98%E5%8C%96grpo%E6%B5%81%E7%A8%8B_%E8%AE%A9%E4%BA%BA%E4%BA%BA%E9%83%BD%E8%83%BD%E8%AE%AD%E8%87%AA%E5%B7%B1%E7%9A%84deepseek_r1/Fri, 07 Feb 2025 14:32:57 +0000https://ixxmu.github.io/posts/2025-02/%E6%98%BE%E5%AD%98%E7%8B%82%E9%99%8D80__unsloth%E9%BB%91%E7%A7%91%E6%8A%80%E4%BC%98%E5%8C%96grpo%E6%B5%81%E7%A8%8B_%E8%AE%A9%E4%BA%BA%E4%BA%BA%E9%83%BD%E8%83%BD%E8%AE%AD%E8%87%AA%E5%B7%B1%E7%9A%84deepseek_r1/显存狂降80%！Unsloth黑科技优化GRPO流程，让人人都能训自己的Deepseek R1 by 歸藏的AI工具箱我们知道 Deepseek R1 核心的贡献是揭示了一个“aha”时刻，在 R1-Zero 中通过使用 GRPO （Group Relative Policy Optimization）在没有人类反馈的情况下自主学会了分配更多的思考时间。　开源社区也在其他模型上复现了类似的表现，不过成本很高，比如为Qwen2.