TokenSwift – 超长文本生成加速利器
TokenSwift是什么
TokenSwift是北京通用人工智能研究院团队推出的超长文本生成加速框架。它能在90分钟内生成10万Token的文本,相比传统自回归模型的近5小时,速度提升了3倍,生成质量无损。其通过多Token生成与Token重用、动态KV缓存更新以及上下文惩罚机制等技术,减少模型加载延迟、优化缓存更新时间并确保生成多样性,支持多种规模和架构的模型,如1.5B、7B、8B、14B的MHA和GQA模型。
核心功能
- 超长文本生成加速 :显著缩短超长文本的生成时间,传统自回归模型生成10万Token的文本可能需要近5个小时,而TokenSwift仅需90分钟,效率提高了300%。
- 无损加速 :在加速的同时,TokenSwift能保持原始模型的输出质量,确保生成文本的质量和多样性。
- 支持多种模型 :支持多种不同规模和架构的模型,包括1.5B、7B、8B、14B的模型,以及多头注意力(MHA)和分组查询注意力(GQA)架构 。
技术原理
- 多Token并行生成与Token复用 :借鉴了Medusa等方法,通过引入额外的线性层,使模型在一次前向传播中能同时生成多个草稿Token。基于生成文本中的n - gram频率信息,系统会自动检索并复用高频短语,进一步减少模型重新加载的次数,提升整体效率。
- 动态KV缓存更新策略 :在KV缓存管理上,采用动态更新策略。系统在生成过程中将初始KV缓存保留,同时根据Token的重要性对后续缓存进行有序替换。
- 基于树结构的多候选Token验证 :为保证生成结果与目标模型预测的一致性,引入了树形注意力机制。通过构建包含多个候选Token组合的树形结构,采用并行验证的方式,从中随机选择最长且有效的n - gram作为最终输出,确保生成过程无损且多样性得到提升。
- 上下文惩罚策略 :为了进一步抑制重复生成问题,设计了一种上下文惩罚方法。在生成过程中为近期生成的Token施加惩罚,使模型在选择下一Token时更倾向于多样化输出,有效减少重复现象。
支持平台
TokenSwift支持多种不同规模和架构的模型,如1.5B、7B、8B、14B的MHA和GQA模型。
团队介绍
TokenSwift由北京通用人工智能研究院团队推出,该团队在人工智能领域具有深厚的技术积累和专业实力,致力于开发高效、先进的AI技术解决方案。
项目资源
- 项目官网:https://bigai - nlco.github.io/TokenSwift/
- GitHub仓库:https://github.com/bigai - nlco/TokenSwift
- HuggingFace模型库:https://huggingface.co/TokenSwift
- arXiv技术论文:https://arxiv.org/pdf/2502.18890
业务场景
- 智能写作 :可帮助作家、文案策划人员等快速生成小说、故事、文案等各种文本内容,提高创作效率。
- 内容创作 :在新闻报道、博客写作等领域,能够快速生成高质量的文章,满足内容生产的需求。
- 数据分析与报告生成 :对于需要生成大量数据分析报告、行业白皮书等场景,TokenSwift可以显著缩短生成时间,提升工作效率。
- 机器翻译 :在处理大规模文本翻译任务时,能够加速翻译过程,提高翻译效率,同时保证翻译质量。
- 自然语言处理研究 :为研究人员提供高效的文本生成工具,有助于推动自然语言处理领域的研究和创新。