阿里通义宣布开源R1-Omni模型可提升多模态情感识别能力

发布时间：2025-03-12 10:36:00

3月11日，通义实验室团队宣布开源R1-Omni模型，为全模态模型的发展带来了新的突破。该模型结合了强化学习与可验证奖励（RLVR）方法，专注于提升多模态情感识别任务中的推理能力和泛化性能。

R1-Omni的训练分为两个阶段。在冷启动阶段，团队使用包含580条视频数据的组合数据集进行微调，这些数据来自Explainable Multimodal Emotion Reasoning（EMER）数据集和HumanOmni数据集。这一阶段旨在为模型奠定基础推理能力，确保其在进入RLVR阶段前具备一定的多模态情感识别能力，从而保障后续训练的平稳性、效率与稳定性。

随后，在RLVR阶段，模型通过强化学习与可验证奖励机制进一步优化。该阶段的关键在于策略模型和奖励函数。策略模型处理视频帧和音频流组成的多模态输入数据，生成带有详细推理过程的候选响应，展示模型如何整合视觉和听觉信息以得出预测。奖励函数则受DeepSeek R1启发，分为精确率奖励和格式奖励两部分，共同形成最终奖励，既鼓励模型生成正确预测，又保证输出结构化且符合预设格式。

实验结果显示，R1-Omni在同分布测试集DFEW和MAFW上，相较于原始基线模型平均提升超过35%，相较于有监督微调（SFT）模型在未加权平均召回率(UAR)上提升高达10%以上。在不同分布测试集RAVDESS上，其加权平均召回率(WAR)和UAR均提升超过13%，展现出卓越的泛化能力。此外，R1-Omni还具有显著的透明性优势，通过RLVR方法，音频和视频信息在模型中的作用变得更加清晰可见，能够明确展示各模态信息对特定情绪判断的关键作用，为理解模型决策过程和未来研究提供了重要参考。

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com

阿里通义宣布开源R1-Omni模型可提升多模态情感识别能力

相关阅读

ai资讯推荐

最新资讯

阿里通义宣布开源R1-Omni模型 可提升多模态情感识别能力

相关阅读

ai资讯推荐

最新资讯

阿里通义宣布开源R1-Omni模型可提升多模态情感识别能力