WorldScore – 虚拟世界的评估标尺

未分类 2025-06-23 0:18

WorldScore 是斯坦福大学推出的首个统一评估世界生成模型的基准测试，旨在解决传统评估中“指标不可比”的痛点，为世界生成模型提供全面的评估框架，适用于 3D、4D、图像到视频（I2V）、文本到视频（T2V）等多种类型的世界生成模型。

统一评估框架 ：将世界生成任务分解为一系列的下一个场景生成任务，通过明确的基于相机轨迹的布局规范，实现不同方法的统一评估，支持 3D/4D/I2V/T2V 模型的横向对比，提供标准化测试流程。
多维度评估 ：从可控性、质量和动态性三个关键方面对生成的世界进行评估，具体包括几何一致性、运动合理性、风格保持等细分维度，共九维量化指标。
多场景生成支持 ：是唯一支持多场景生成的基准测试，能评估模型在生成连续场景时的表现，可生成多个场景，评估模型在长序列生成任务中的表现，最多可测试 120 帧连续场景。
图像条件生成 ：支持基于图像的条件生成，适用于图像到视频的生成任务，还包含多种视觉风格的数据，能够评估模型在不同风格下的生成能力。
相机控制与 3D 一致性评估 ：评估模型对相机轨迹的遵循能力，确保生成的场景符合指定的相机运动，同时确保生成的 3D 场景在不同视角下保持几何结构的稳定性。

多样化数据集 ：数据集包含动态和静态配置的多媒体数据，适用于图像到视频和图像到 3D 的任务，分为训练集和测试集，其中动态配置有 1000 个样本，静态配置有 2000 个样本。
相机轨迹编码 ：将相机运动参数化为 6DoF 数据，作为场景生成的强约束条件，确保模型生成的场景与相机运动相匹配。
多模态适配器 ：通过共享的特征空间，实现不同模态生成结果的统一度量，使不同类型的模型能够在同一框架下进行评估。
动态图谱分析 ：利用 SLAM 技术重建生成场景的 3D 点云，量化几何稳定性，从而评估生成场景的质量和一致性。
语义一致性检测 ：基于 GroundingDINO 模型验证跨帧物体识别一致性，确保生成场景中物体的语义信息保持一致。
风格迁移评估 ：使用 CLIP 空间距离计算生成内容与目标风格的偏离度，以评估模型在风格生成方面的性能。

WorldScore 支持多种操作系统，包括但不限于 Linux、Windows 和 macOS，可广泛应用于个人电脑、服务器等多种设备，为研究人员和开发者提供了灵活的使用环境。

WorldScore 由斯坦福大学的研究团队开发，该团队在人工智能、计算机视觉等领域拥有深厚的技术积累和丰富的研究经验。团队成员包括李飞飞等在学术界和工业界具有重要影响力的专家，他们在模型评估、世界生成等领域进行了长期的探索和研究，致力于推动相关技术的发展和应用。