Skywork-VL Reward – 多模态奖励模型的创新突破

未分类 2025-06-22 14:14

Skywork-VL Reward 是一款由 Skywork AI 团队开发的多模态奖励模型，专为多模态理解和推理任务提供高质量的奖励信号。该模型基于 Qwen2.5-VL-7B-Instruct 架构，通过增加奖励头结构，能够输出与人类偏好对齐的标量奖励分数。

Skywork-VL Reward 的核心功能包括：

Skywork-VL Reward 的技术原理涵盖以下方面：

模型架构：基于 Qwen2.5-VL-7B-Instruct 架构，包含视觉编码器（Vision Transformer）、视觉-语言适配器和语言模型解码器。在基础模型上添加奖励头，通过全连接层处理最终隐藏状态以生成奖励分数。
数据集构建：整合多个开源偏好数据集及内部标注的复杂推理任务数据，经过去重、相似性过滤和偏好判断过滤等步骤，确保数据的高质量和一致性。
训练方法：采用成对偏好损失函数，通过两阶段微调策略训练模型。第一阶段使用多模态偏好数据进行训练，第二阶段加入纯文本偏好数据，进一步提升模型在纯文本场景下的性能。

Skywork-VL Reward 支持多种主流平台，包括但不限于 Hugging Face 模型库，模型权重和代码已全面开源。

Skywork-VL Reward 由昆仑万维旗下的 Skywork AI 团队开发。该团队在多模态理解和推理领域拥有深厚的技术积累和创新能力，致力于推动多模态强化学习的发展。

Skywork-VL Reward 广泛应用于多种业务场景，包括但不限于：