<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>歸藏的AI工具箱 on 文字轨迹</title><link>https://ixxmu.github.io/tags/%E6%AD%B8%E8%97%8F%E7%9A%84ai%E5%B7%A5%E5%85%B7%E7%AE%B1/</link><description>Recent content in 歸藏的AI工具箱 on 文字轨迹</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Fri, 07 Feb 2025 14:32:57 +0000</lastBuildDate><atom:link href="https://ixxmu.github.io/tags/%E6%AD%B8%E8%97%8F%E7%9A%84ai%E5%B7%A5%E5%85%B7%E7%AE%B1/index.xml" rel="self" type="application/rss+xml"/><item><title>显存狂降80%！Unsloth黑科技优化GRPO流程，让人人都能训自己的Deepseek R1</title><link>https://ixxmu.github.io/posts/2025-02/%E6%98%BE%E5%AD%98%E7%8B%82%E9%99%8D80__unsloth%E9%BB%91%E7%A7%91%E6%8A%80%E4%BC%98%E5%8C%96grpo%E6%B5%81%E7%A8%8B_%E8%AE%A9%E4%BA%BA%E4%BA%BA%E9%83%BD%E8%83%BD%E8%AE%AD%E8%87%AA%E5%B7%B1%E7%9A%84deepseek_r1/</link><pubDate>Fri, 07 Feb 2025 14:32:57 +0000</pubDate><guid>https://ixxmu.github.io/posts/2025-02/%E6%98%BE%E5%AD%98%E7%8B%82%E9%99%8D80__unsloth%E9%BB%91%E7%A7%91%E6%8A%80%E4%BC%98%E5%8C%96grpo%E6%B5%81%E7%A8%8B_%E8%AE%A9%E4%BA%BA%E4%BA%BA%E9%83%BD%E8%83%BD%E8%AE%AD%E8%87%AA%E5%B7%B1%E7%9A%84deepseek_r1/</guid><description>显存狂降80%！Unsloth黑科技优化GRPO流程，让人人都能训自己的Deepseek R1 by 歸藏的AI工具箱 我们知道 Deepseek R1 核心的贡献是揭示了一个“aha”时刻，在 R1-Zero 中通过使用 GRPO （Group Relative Policy Optimization）在没有人类反馈的情况下自主学会了分配更多的思考时间。　开源社区也在其他模型上复现了类似的表现，不过成本很高，比如为Qwen2.</description></item></channel></rss>