CAR – 字节跳动与复旦联合推出的自适应推理框架

未分类 2025-06-22 13:50

CAR（Certainty-based Adaptive Reasoning）是由字节跳动联合复旦大学推出的自适应推理框架，旨在提升大型语言模型（LLM）和多模态大型语言模型（MLLM）在不同任务中的推理效率与准确性。

核心功能

CAR框架的核心功能是动态推理切换。它能够根据模型对答案的置信度（通过困惑度PPL衡量）智能地在短答案和长形式推理之间切换。对于简单问题，直接输出短答案以提高效率；对于复杂问题，则触发长形式推理以确保准确性。此外，CAR还具备以下功能：

提升推理效率：显著减少模型生成的token数量，降低计算成本和推理时间。
提高推理准确性：在需要详细推理的情况下，激活长形式推理，提高模型在复杂任务中的表现。
适应多种任务：适用于视觉问答（VQA）、关键信息提取（KIE）、数学推理、常识推理等任务。

技术原理

CAR框架的技术原理基于以下几个关键步骤：

模型训练：使用包含短答案和长形式推理答案的训练数据对模型进行训练，优化目标是交叉熵损失。
获取短答案的PPL：在训练数据上进行短答案推理，计算每个短答案的困惑度（PPL），PPL越低，表示模型对答案的置信度越高。
高斯分布建模：假设正确和错误短答案的PPL分数分别服从高斯分布，基于训练数据估计分布的参数。
推理过程：对于新的输入，首先生成短答案并计算PPL值，根据高斯分布模型计算该PPL值下答案正确的概率。

支持平台

CAR框架支持多种主流的深度学习平台，包括但不限于PyTorch和TensorFlow。其灵活性使其能够轻松集成到现有的AI开发环境中。

团队介绍

CAR框架由字节跳动与复旦大学的研究团队共同开发。字节跳动作为全球领先的人工智能公司，拥有强大的技术研发能力和丰富的应用场景。复旦大学则在学术研究和理论创新方面提供了坚实的支持。

项目资源

官网：CAR框架官网
技术论文：arXiv技术论文

业务场景

CAR框架在多个业务场景中展现出强大的应用潜力：

视觉问答（VQA）：在简单问题上直接输出短答案，提高效率；在复杂问题上触发长形式推理，确保准确。
关键信息提取（KIE）：根据置信度动态选择推理方式，减少token使用量，保持高准确率。
数学推理：在简单数学问题上直接输出答案，在复杂问题上进行详细推理，提升准确性和效率。
常识推理：针对简单常识问题直接给出答案，复杂问题则进行长形式推理，减少token消耗。
多模态任务：结合文本和图像信息，动态选择推理方式，提升多模态任务的准确性和效率。

发表回复取消回复