<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>论文阅读 on 多辣加香菜</title>
    <link>http://xilyfeAAAA.github.io/series/%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB/</link>
    <description>Recent content in 论文阅读 on 多辣加香菜</description>
    <generator>Hugo</generator>
    <language>zh-CN</language>
    <lastBuildDate>Mon, 27 Apr 2026 12:43:44 +0800</lastBuildDate>
    <atom:link href="http://xilyfeAAAA.github.io/series/%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>ToolRL: Reward is All Tool Learning Needs</title>
      <link>http://xilyfeAAAA.github.io/posts/toolrl/</link>
      <pubDate>Fri, 24 Apr 2026 16:26:42 +0800</pubDate>
      <guid>http://xilyfeAAAA.github.io/posts/toolrl/</guid>
      <description>&lt;blockquote&gt;&#xA;  &lt;p&gt;&lt;strong&gt;论文&lt;/strong&gt;：ToolRL: Reward is All Tool Learning Needs&lt;br&gt;&#xA;&lt;strong&gt;标签&lt;/strong&gt;：&lt;code&gt;Reinforcement Learning&lt;/code&gt; &lt;code&gt;Tool Use&lt;/code&gt; &lt;code&gt;LLM Agent&lt;/code&gt; &lt;code&gt;GRPO&lt;/code&gt;&lt;br&gt;&#xA;&lt;strong&gt;TL;DR&lt;/strong&gt;：ToolRL 提出了一套多粒度、可动态调整的奖励体系，系统性地解决了 LLM 工具调用训练中奖励信号过于粗糙的问题，在 TIR（Tool-Integrated Reasoning）场景下显著优于 SFT 和传统 ORM 方法。&lt;/p&gt;</description>
    </item>
    <item>
      <title>Search-R1</title>
      <link>http://xilyfeAAAA.github.io/posts/searchr1/</link>
      <pubDate>Wed, 22 Apr 2026 16:26:42 +0800</pubDate>
      <guid>http://xilyfeAAAA.github.io/posts/searchr1/</guid>
      <description>&lt;blockquote&gt;&#xA;  &lt;p&gt;&lt;strong&gt;论文&lt;/strong&gt;：Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning&lt;br&gt;&#xA;&lt;strong&gt;标签&lt;/strong&gt;：&lt;code&gt;Reinforcement Learning&lt;/code&gt; &lt;code&gt;RAG&lt;/code&gt; &lt;code&gt;Search&lt;/code&gt; &lt;code&gt;Agentic RL&lt;/code&gt; &lt;code&gt;GRPO&lt;/code&gt;&lt;br&gt;&#xA;&lt;strong&gt;TL;DR&lt;/strong&gt;：Search-R1 将 DeepSeek-R1 的强化学习范式迁移到搜索增强推理场景，通过 online rollout + ORM 奖励，让模型自主学会何时搜索、搜索什么、如何整合结果——而非依赖人工标注的搜索轨迹。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
