Seed1.5-Embedding – 引领未来的向量模型
Seed1.5-Embedding 是什么
Seed1.5-Embedding 是字节跳动 Seed 团队于 2025 年 5 月 12 日推出的最新向量模型,基于 Seed1.5 (Doubao-1.5-pro) 进一步训练而成。该模型在权威测评榜单 MTEB 上达到了中英文 SOTA 效果,在推理密集型检索任务的 BRIGHT 榜单上也取得了优异成绩。
核心功能
- 文本语义编码 :能将输入文本的语义准确编码到高维空间的表征向量中,使相关文本的向量相似度更高,从而支持检索、分类、聚类等下游任务,广泛应用于搜索、推荐和内容理解等场景。
- 检索任务 :借助向量相似度计算,可快速从海量文档中精准定位与用户查询最相关的信息,并且在推理密集型检索任务上表现出色,能够理解复杂的查询和文档匹配关系。
- 多任务优化 :支持分类、聚类、成对分类、重排、检索和语义文本相似性(STS)等多种任务,适用于多种应用场景,可满足不同用户的多样化需求。
- 灵活的向量维度支持 :提供 2048、1024、512 和 256 等多种向量维度供用户选择,在较低维度下模型性能下降也很小,为用户提供了灵活的存储和运行效率选择。
- 推理能力优化 :通过构造推理密集型检索数据,优化模型在复杂查询和文档匹配中的推理能力,使其能够处理更复杂的语义关系和逻辑推理任务。
技术原理
- 模型架构 :采用 Siamese 双塔向量模型结构,查询与文档的向量通过 cosine 相似度计算匹配得分。依托 Seed1.5 预训练 LLM,将单向注意力改为双向,构建出一个小规模的 MoE 模型,查询侧和文档侧模型参数共享,保证了较高的运行效率。
- 两阶段训练流程 :
- 第一阶段 :使用无监督数据进行预微调,通过对比学习改造生成模型为编码模型,充分建模各种文本匹配模式。
- 第二阶段 :使用有监督数据和合成数据进行微调,混合多种任务数据进行多任务优化,让模型学习各个任务的最佳表征模式。
- 数据工程策略 :
- 负例挖掘 :设计迭代式难负例挖掘策略,根据模型自身偏好挖掘难负例,提升模型的细粒度相关性区分能力。
- 伪负例过滤 :自动过滤与正例过于相似的文本,避免伪负例影响学习。
- 合成数据 :构造通用场景和推理密集场景的数据,提升模型在复杂检索任务中的表现。
支持平台
Seed1.5-Embedding 的 API 接口预计将在近期通过火山方舟平台开放,为开发者提供更多便利。
团队介绍
Seed1.5-Embedding 由字节跳动 Seed 团队开发。字节跳动在人工智能领域投入巨大,拥有强大的技术实力和丰富的数据资源。Seed 团队在自然语言处理和机器学习等领域有着深入的研究和丰富的实践经验,其开发的多个 AI 产品都在行业内引起了广泛关注和好评。
项目资源
- HuggingFace 模型库 :https://huggingface.co/ByteDance-Seed/Seed1.5-Embedding
业务场景
- 信息检索与语义搜索 :可将文档或网页向量化,支持语义级别的搜索,显著提高召回率和精准度,广泛应用于问答系统(QA)、企业内部文档检索、客户服务等场景。
- 文本聚类与话题识别 :利用文本向量对海量文档进行聚类,自动识别出不同主题和分类信息,帮助用户更好地理解和组织文本数据。
- 推荐系统 :在推荐系统中,可将用户评论、产品描述等文本信息向量化,通过计算相似度,实现相似商品、相似用户的检索,为用户提供更精准的个性化推荐。
- 文本分类与情感分析 :可将文本生成向量,再输入下游分类模型,提升文本分类、情感分析、立场分析等任务的性能,相比传统 TF-IDF 特征,生成的向量能更准确地表达文本含义和上下文关系。
- 复杂查询理解与推理 :在推理密集型检索任务上表现出色,能深入理解复杂查询和文档之间的深层匹配关系,适用于生物学、地球科学、编程等领域的复杂搜索任务,可提供更准确的检索结果。