URM – 知识注入与多模态融合的电商推荐新引擎

URM是什么

URM(Universal Recommendation Model)是阿里妈妈推出的世界知识大模型,基于知识注入和信息对齐,将大语言模型(LLM)的通用知识与电商领域的专业知识相结合,解决传统LLM在电商推荐场景中的不足。它引入多模态融合的商品表征和高效的Sequence-In-Set-Out生成方式,能够处理多种推荐任务,如多场景推荐、长尾推荐等,显著提升推荐效果,已在阿里妈妈的展示广告场景中上线,有效提升了商家投放效果和消费者购物体验。

核心功能

  • 多任务处理 :支持同时处理多种推荐任务,包括多场景推荐、多目标推荐、长尾推荐、发现性推荐等,满足不同业务场景下的多样化推荐需求。
  • 用户兴趣理解 :全面理解用户的兴趣和需求,通过深度语义分析准确把握用户的兴趣偏好和行为特征,提供更符合用户当前情境的个性化推荐结果。
  • 高效率推荐 :在单次前向传播中生成高质量的推荐集合,满足工业级推荐系统的低时延、高 QPS 需求,确保推荐的实时性和高效性。
  • 多模态融合 :结合商品的 ID 表征和语义表征,如文本、图像等,提升商品的表达能力和推荐的准确性,使推荐结果更加丰富和精准。
  • 零样本学习能力 :快速适应新任务和新场景,在没有大量标注数据的情况下也能提供有效的推荐,增强了模型的泛化能力和适应性。

技术原理

  • 多模态融合表征 :通过分布式哈希表将商品 ID 映射为独特的嵌入向量,捕捉商品间的协同信息;同时利用文本编码器和图像编码器将商品的文本描述和图像信息转换为语义嵌入向量,再通过 MLP 层将 ID 表征和语义表征对齐融合,生成多模态商品嵌入向量。
  • Sequence-In-Set-Out 生成方式 :输入序列由用户行为中的商品 ID、任务提示中的文本 token 及特殊查询符组成,输出机制基于用户建模头(hUM)和语言模型头(hLM)分别生成用户表征和文本输出。增加 UM token 数量,使 URM 在一次前向传播中并行生成多个用户表征,提升召回指标。
  • 任务定义与提示工程 :基于文本来定义不同的推荐任务,将商品 ID 作为特殊 token 注入文本描述,实现用户行为序列的高效表达。设计不同的提示模板,调整推荐结果的分布,让模型根据不同的任务需求和用户行为动态调整推荐策略。
  • 训练方式 :结合商品推荐任务的噪声对比估计(NCE)损失和文本生成任务的负对数似然损失,采用完整参数的有监督微调(SFT),仅冻结商品的原始表征,保留 LLM 的预训练知识。
  • 异步推理链路 :为满足低时延、高 QPS 要求,设计面向用户行为动态捕捉的异步推理链路,将推理结果持久化存储,供在线召回阶段读取。基于多 instance 在同一容器部署,将 URM 推理的并发 qps 提升 200%。

支持平台

阿里妈妈的展示广告场景等。

团队介绍

阿里妈妈团队在电商领域拥有深厚的技术积累和丰富的业务经验,致力于通过技术创新推动电商广告和推荐系统的智能化发展。团队成员涵盖人工智能、机器学习、数据挖掘等多个领域的专家,具备强大的研发实力和创新能力,持续优化 URM 模型,提升其性能和应用效果。

项目资源

业务场景

  • 多场景推荐 :支持首页、商品详情页、搜索结果页等不同场景下的个性化推荐,根据用户在不同页面的行为和上下文信息,生成与场景相关的推荐结果,提升用户体验和转化率。
  • 长尾商品曝光 :通过算法优化,有效提升销量较低商品的曝光机会,帮助长尾商品获得更多的流量和关注,增加商品的销售机会,丰富推荐结果的多样性。
  • 用户兴趣探索 :智能发现并推荐用户可能感兴趣但此前未接触过的新品类,根据用户的兴趣偏好和行为特征,挖掘潜在的兴趣点,拓展用户的兴趣范围,提升用户在平台上的探索体验和消费粘性。
  • 搜索增强 :结合用户的搜索意图和历史行为数据,优化搜索结果的相关性和准确性,将搜索问题视为一个推荐任务,通过提示模板将用户的历史行为和搜索词结合起来,生成更精准的搜索结果,提高搜索的满意度和转化率。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注