LLM reasoning & CoT
本文系统介绍了当前大语言模型推理(Reasoning)能力的核心技术路线,包括推理范式、推理蒸馏以及基于强化学习的推理训练方法,并实现了一套完整的 Reasoning Pipeline。在推理蒸馏阶段,利用 open-thoughts 数据集(由 DeepSeek-R1 生成的高质量推理轨迹)对 Qwen3.5 模型进行监督微调,使模型能够学习显式的 Chain-of-Thought 推理过程,从而获得基础推理能力。在此基础上,通过设计多种奖励函数对模型进行强化学习训练,进一步提升模型的推理能力与输出质量。本文通过完整的工程实践展示了从推理数据构建、蒸馏训练到强化学习优化的全过程,为构建具备推理能力的中小规模语言模型提供了一套可复现的实现方案。








