在这里插入图片描述

😊你好,我是小航,一个正在变秃、变强的文艺倾年。
🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、具身智能、智能体等相关领域,期待与你一同探索、学习、进步,一起卷起来叭!
🚩Paper:Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
💻时间:202505
💭推荐指数:🌟🌟🌟🌟🌟
💭开源代码:https://codegoat24.github.io/UnifiedReward/think

往期精彩专栏内容,欢迎订阅:

🔗【多智能体&强化学习】20250615:构建端到端的自主信息检索代理
🔗【多智能体】20250611:基于嵌套进化算法的多代理工作流
🔗【多智能体】20250610:受木偶戏启发实现多智能体协作编排
🔗【多智能体】20250609:基于LLM自进化多学科团队医疗咨询多智能体框架
🔗【具身智能体】20250608:EvoAgent:针对长时程任务具有持续世界模型的自主进化智能体

创新性

  1. 首次提出统一的多模态CoT奖励模型:UNIFIEDREWARD-THINK是第一个能够进行多维、逐步长链推理的统一多模态CoT奖励模型,适用于视觉理解和生成任务。
  2. 显著增强奖励模型的可靠性和鲁棒性:通过显式长CoT推理的引入,显著提高了奖励信号的准确性和可靠性。
  3. 隐式推理能力的提升:一旦模型掌握了CoT推理能力,即使在没有显式推理痕迹的情况下,也能通过隐式逻辑推理能力提供更准确的奖励信号。
  4. 探索驱动的强化微调:采用探索驱动的强化微调方法,激活和精炼模型潜在的复杂推理能力,优化准确和稳健的推理模式。
  5. 三阶段训练管道:包括冷启动、拒绝采样和基于GRPO的强化微调三个阶段,逐步增强模型的长CoT推理能力。
  6. 广泛的实验验证:通过广泛的实验验证了该方法在不同视觉奖励任务中的优越性。

研究背景

在这里插入图片描述

  1. 研究问题:这篇文章要解决的问题是如何在多模态奖励模型(RMs)中引入显式的长链思维(CoT)推理过程,以增强奖励信号的可靠性和鲁棒性。
  2. 研究难点:该问题的研究难点包括:传统训练方法如监督微调(SFT)难以获得大规模的多模态CoT奖励数据现有的奖励模型在复杂场景中往往提供不准确或不可靠的奖励信号
  3. 相关工作:该问题的研究相关工作有:多模态奖励模型如Li et al.(2024a)、Bai etal.(2025)等,利用视觉语言模型(VLMs)的强大多模态对齐能力学习人类判断基于的奖励函数;强化学习技术如Deepseek-R1-Zero(Guo etal.,2025)用于提升大型语言模型(LLMs)的推理能力。

研究方法

在这里插入图片描述
这篇论文提出了UNIFIEDREWARD-THINK,第一个统一的多模态CoT基础奖励模型,能够进行多维、逐步的长链推理。具体来说,

  1. 冷启动阶段:首先使用少量图像生成偏好数据蒸馏GPT-4o的推理过程,用于模型的冷启动学习CoT推理的格式和结构。目标函数定义为:在这里插入图片描述
    其中, θ \theta θ表示奖励模型的参数。
  2. 拒绝采样阶段:准备大规模的统一多模态偏好数据,激励模型在各种视觉任务中进行CoT推理。保留正确推理轨迹并通过拒绝采样进行强化,以加强正确推理模式的分布。在这里插入图片描述
  3. 组相对策略优化(GRPO)阶段:利用错误推理样本进行GRPO基于的强化微调,使模型能够探索多样的推理路径并优化正确的解决方案。可验证奖励包括格式奖励和准确性奖励,公式如下
    在这里插入图片描述
    总体可验证奖励为: r = r f m t + r a c c r=r_{fmt}+r_{acc} r=rfmt+racc
    GRPO的训练目标为: L g r p o ( θ ) = E x ∼ X , o ( i ) ∼ π θ old [ min ⁡ ( r a t i o ( i ) , c l i p ( r a t i o ( i ) , 1 − δ , 1 + δ ) ) ⋅ A ^ ( i ) − β ⋅ D K L ( π θ n e w ∥ π r e f ) ] L_{grpo}(\theta)=E_{x\sim\mathcal{X},o^{(i)}\sim\pi_{\theta_ {\text{old}}}}\left[\min\left(ratio^{(i)},clip(ratio^{(i)},1-\delta,1+\delta)\right)\cdot\hat{A}^{(i)}-\beta\cdot D_{KL}(\pi_{\theta_{new}}\parallel\pi_{ref})\right] Lgrpo(θ)=ExX,o(i)πθold[min(ratio(i),clip(ratio(i),1δ,1+δ))A^(i)βDKL(πθnewπref)]
    其中, X \mathcal{X} X表示训练样本输入, D K L ( ⋅ ∥ ⋅ ) D_{KL}(\cdot\parallel\cdot) DKL()表示KL散度。

实验设计

  1. 数据集:图像生成使用HPD(25.6K)、OIP(7.4K)、EvalMuse(3K)数据集;视频生成使用VideoDPO(10K)和Text2Video-Human Preferences(5.7K)数据集;图像理解使用LLaVA-Critic-113K数据集;视频理解使用ShareGP TVideo-DPO(17K)数据集。
  2. 冷启动阶段:从GPT-4o蒸馏5K图像生成CoT奖励推理样本
  3. 训练细节:冷启动和拒绝采样阶段使用批量大小16,学习率2.5 x 10-6,梯度累积步数16,预热比例0.3,使用8个NVIDIA H100 GPU。GRPO阶段使用批量大小1,单个梯度累积步数,学习率1 x 10-6,KL惩罚系数β=0.04,生成响应数量8,使用64个NVIDIA H20 GPU。

结果与分析

  1. 图像和视频生成任务:在GenAI-Bench和VideoGen-Reward基准上,UNIFIEDREWARD-THINK模型在所有评估中均优于现有方法。与基模型UnifiedReward相比,结合多维和多步推理在所有任务中均有显著提升。在这里插入图片描述
  2. 图像理解任务:在VLRewardBench基准上,UNIFIEDREWARD-THINK模型在一般理解、幻觉检测和复杂推理方面的准确性显著提高。
  3. 消融实验:每个训练阶段的消融实验表明,冷启动阶段使模型学习了CoT推理格式,拒绝采样阶段通过保留正确样本加强了正确推理模式的分布,GRPO阶段通过探索多样推理路径显著提高了模型
    的性能。

总体结论

这篇论文提出了UNIFIEDREWARD-THINK,第一个统一的多模态CoT奖励模型,能够通过探索驱动的强化微调激活和精炼模型的多维、逐步长链推理能力。广泛的实验验证了CoT推理不仅提高了奖励信号的准确性和可靠性,还增强了模型的隐式推理能力,使其在没有显式CoT输出的情况下也能超越现有基线。

📌 [ 笔者 ]   文艺倾年
📃 [ 更新 ]   2025.6.19
❌ [ 勘误 ]   /* 暂无 */
📜 [ 声明 ]   由于作者水平有限,本文有错误和不准确之处在所难免,
              本人也很想知道这些错误,恳望读者批评指正!

在这里插入图片描述

Logo

分享最新的 NVIDIA AI Software 资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐