【多模态&强化学习】基于统一多模态思维链的奖励模型
🔨动机:传统训练方法如监督微调(SFT)`难以获得大规模的多模态CoT奖励数据`;`现有的奖励模型在复杂场景中往往提供不准确或不可靠的奖励信号`。🚩创新:首次提出统一的多模态CoT奖励模型:UNIFIEDREWARD-THINK是第一个能够进行多维、逐步长链推理的统一多模态CoT奖励模型,适用于视觉理解和生成任务。1. 冷启动阶段:首先`使用少量图像生成偏好数据蒸馏GPT-4o`的推理过程,用
😊你好,我是小航,一个正在变秃、变强的文艺倾年。
🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、具身智能、智能体
等相关领域,期待与你一同探索、学习、进步,一起卷起来叭!
🚩Paper:Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
💻时间:202505
💭推荐指数:🌟🌟🌟🌟🌟
💭开源代码:https://codegoat24.github.io/UnifiedReward/think
往期精彩专栏内容,欢迎订阅:
🔗【多智能体&强化学习】20250615:构建端到端的自主信息检索代理
🔗【多智能体】20250611:基于嵌套进化算法的多代理工作流
🔗【多智能体】20250610:受木偶戏启发实现多智能体协作编排
🔗【多智能体】20250609:基于LLM自进化多学科团队医疗咨询多智能体框架
🔗【具身智能体】20250608:EvoAgent:针对长时程任务具有持续世界模型的自主进化智能体
创新性
- 首次提出统一的多模态CoT奖励模型:UNIFIEDREWARD-THINK是第一个能够进行多维、逐步长链推理的统一多模态CoT奖励模型,适用于视觉理解和生成任务。
- 显著增强奖励模型的可靠性和鲁棒性:通过显式长CoT推理的引入,显著提高了奖励信号的准确性和可靠性。
- 隐式推理能力的提升:一旦模型掌握了CoT推理能力,即使在没有显式推理痕迹的情况下,也能通过隐式逻辑推理能力提供更准确的奖励信号。
- 探索驱动的强化微调:采用探索驱动的强化微调方法,激活和精炼模型潜在的复杂推理能力,优化准确和稳健的推理模式。
- 三阶段训练管道:包括冷启动、拒绝采样和基于GRPO的强化微调三个阶段,逐步增强模型的长CoT推理能力。
- 广泛的实验验证:通过广泛的实验验证了该方法在不同视觉奖励任务中的优越性。
研究背景
- 研究问题:这篇文章要解决的问题是如何在多模态奖励模型(RMs)中引入显式的长链思维(CoT)推理过程,以增强奖励信号的可靠性和鲁棒性。
- 研究难点:该问题的研究难点包括:传统训练方法如监督微调(SFT)
难以获得大规模的多模态CoT奖励数据
;现有的奖励模型在复杂场景中往往提供不准确或不可靠的奖励信号
。 - 相关工作:该问题的研究相关工作有:多模态奖励模型如Li et al.(2024a)、Bai etal.(2025)等,利用视觉语言模型(VLMs)的强大多模态对齐能力学习人类判断基于的奖励函数;强化学习技术如Deepseek-R1-Zero(Guo etal.,2025)用于提升大型语言模型(LLMs)的推理能力。
研究方法
这篇论文提出了UNIFIEDREWARD-THINK,第一个统一的多模态CoT基础奖励模型,能够进行多维、逐步的长链推理
。具体来说,
- 冷启动阶段:首先
使用少量图像生成偏好数据蒸馏GPT-4o
的推理过程,用于模型的冷启动学习CoT推理的格式和结构。目标函数定义为:
其中, θ \theta θ表示奖励模型的参数。 - 拒绝采样阶段:准备大规模的统一多模态偏好数据,激励模型在各种视觉任务中进行CoT推理。保留正确推理轨迹并通过拒绝采样进行强化,以加强正确推理模式的分布。
- 组相对策略优化(GRPO)阶段:利用错误推理样本进行GRPO基于的强化微调,使模型能够探索多样的推理路径并优化正确的解决方案。可验证奖励包括格式奖励和准确性奖励,公式如下
总体可验证奖励为: r = r f m t + r a c c r=r_{fmt}+r_{acc} r=rfmt+racc
GRPO的训练目标为: L g r p o ( θ ) = E x ∼ X , o ( i ) ∼ π θ old [ min ( r a t i o ( i ) , c l i p ( r a t i o ( i ) , 1 − δ , 1 + δ ) ) ⋅ A ^ ( i ) − β ⋅ D K L ( π θ n e w ∥ π r e f ) ] L_{grpo}(\theta)=E_{x\sim\mathcal{X},o^{(i)}\sim\pi_{\theta_ {\text{old}}}}\left[\min\left(ratio^{(i)},clip(ratio^{(i)},1-\delta,1+\delta)\right)\cdot\hat{A}^{(i)}-\beta\cdot D_{KL}(\pi_{\theta_{new}}\parallel\pi_{ref})\right] Lgrpo(θ)=Ex∼X,o(i)∼πθold[min(ratio(i),clip(ratio(i),1−δ,1+δ))⋅A^(i)−β⋅DKL(πθnew∥πref)]
其中, X \mathcal{X} X表示训练样本输入, D K L ( ⋅ ∥ ⋅ ) D_{KL}(\cdot\parallel\cdot) DKL(⋅∥⋅)表示KL散度。
实验设计
- 数据集:图像生成使用HPD(25.6K)、OIP(7.4K)、EvalMuse(3K)数据集;视频生成使用VideoDPO(10K)和Text2Video-Human Preferences(5.7K)数据集;图像理解使用LLaVA-Critic-113K数据集;视频理解使用ShareGP TVideo-DPO(17K)数据集。
- 冷启动阶段:
从GPT-4o蒸馏5K图像生成CoT奖励推理样本
。 - 训练细节:冷启动和拒绝采样阶段使用批量大小16,学习率2.5 x 10-6,梯度累积步数16,预热比例0.3,使用8个NVIDIA H100 GPU。GRPO阶段使用批量大小1,单个梯度累积步数,学习率1 x 10-6,KL惩罚系数β=0.04,生成响应数量8,使用64个NVIDIA H20 GPU。
结果与分析
- 图像和视频生成任务:在GenAI-Bench和VideoGen-Reward基准上,UNIFIEDREWARD-THINK模型在所有评估中均优于现有方法。与基模型UnifiedReward相比,结合多维和多步推理在所有任务中均有显著提升。
- 图像理解任务:在VLRewardBench基准上,UNIFIEDREWARD-THINK模型在一般理解、幻觉检测和复杂推理方面的准确性显著提高。
- 消融实验:每个训练阶段的消融实验表明,冷启动阶段使模型学习了CoT推理格式,拒绝采样阶段通过保留正确样本加强了正确推理模式的分布,GRPO阶段通过探索多样推理路径显著提高了模型
的性能。
总体结论
这篇论文提出了UNIFIEDREWARD-THINK,第一个统一的多模态CoT奖励模型,能够通过探索驱动的强化微调激活和精炼模型的多维、逐步长链推理能力。广泛的实验验证了CoT推理不仅提高了奖励信号的准确性和可靠性,还增强了模型的隐式推理能力,使其在没有显式CoT输出的情况下也能超越现有基线。
📌 [ 笔者 ] 文艺倾年
📃 [ 更新 ] 2025.6.19
❌ [ 勘误 ] /* 暂无 */
📜 [ 声明 ] 由于作者水平有限,本文有错误和不准确之处在所难免,
本人也很想知道这些错误,恳望读者批评指正!
更多推荐
所有评论(0)