CAR – 字节跳动与复旦联合推出的自适应推理框架
CAR(Certainty-based Adaptive Reasoning)是由字节跳动联合复旦大学推出的自适应推理框架,旨在提升大型语言模型(LLM)和多模态大型语言模型(MLLM)在不同任务中的推理效率与准确性。
核心功能
CAR框架的核心功能是动态推理切换。它能够根据模型对答案的置信度(通过困惑度PPL衡量)智能地在短答案和长形式推理之间切换。对于简单问题,直接输出短答案以提高效率;对于复杂问题,则触发长形式推理以确保准确性。此外,CAR还具备以下功能:
- 提升推理效率:显著减少模型生成的token数量,降低计算成本和推理时间。
- 提高推理准确性:在需要详细推理的情况下,激活长形式推理,提高模型在复杂任务中的表现。
- 适应多种任务:适用于视觉问答(VQA)、关键信息提取(KIE)、数学推理、常识推理等任务。
技术原理
CAR框架的技术原理基于以下几个关键步骤:
- 模型训练:使用包含短答案和长形式推理答案的训练数据对模型进行训练,优化目标是交叉熵损失。
- 获取短答案的PPL:在训练数据上进行短答案推理,计算每个短答案的困惑度(PPL),PPL越低,表示模型对答案的置信度越高。
- 高斯分布建模:假设正确和错误短答案的PPL分数分别服从高斯分布,基于训练数据估计分布的参数。
- 推理过程:对于新的输入,首先生成短答案并计算PPL值,根据高斯分布模型计算该PPL值下答案正确的概率。
支持平台
CAR框架支持多种主流的深度学习平台,包括但不限于PyTorch和TensorFlow。其灵活性使其能够轻松集成到现有的AI开发环境中。
团队介绍
CAR框架由字节跳动与复旦大学的研究团队共同开发。字节跳动作为全球领先的人工智能公司,拥有强大的技术研发能力和丰富的应用场景。复旦大学则在学术研究和理论创新方面提供了坚实的支持。
项目资源
业务场景
CAR框架在多个业务场景中展现出强大的应用潜力:
- 视觉问答(VQA):在简单问题上直接输出短答案,提高效率;在复杂问题上触发长形式推理,确保准确。
- 关键信息提取(KIE):根据置信度动态选择推理方式,减少token使用量,保持高准确率。
- 数学推理:在简单数学问题上直接输出答案,在复杂问题上进行详细推理,提升准确性和效率。
- 常识推理:针对简单常识问题直接给出答案,复杂问题则进行长形式推理,减少token消耗。
- 多模态任务:结合文本和图像信息,动态选择推理方式,提升多模态任务的准确性和效率。