论文阅读 on 多辣加香菜

ToolRL: Reward is All Tool Learning Needs

Fri, 24 Apr 2026 16:26:42 +0800

论文：ToolRL: Reward is All Tool Learning Needs
标签：Reinforcement Learning Tool Use LLM Agent GRPO
TL;DR：ToolRL 提出了一套多粒度、可动态调整的奖励体系，系统性地解决了 LLM 工具调用训练中奖励信号过于粗糙的问题，在 TIR（Tool-Integrated Reasoning）场景下显著优于 SFT 和传统 ORM 方法。

Search-R1

Wed, 22 Apr 2026 16:26:42 +0800

论文：Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
标签：Reinforcement Learning RAG Search Agentic RL GRPO
TL;DR：Search-R1 将 DeepSeek-R1 的强化学习范式迁移到搜索增强推理场景，通过 online rollout + ORM 奖励，让模型自主学会何时搜索、搜索什么、如何整合结果——而非依赖人工标注的搜索轨迹。