dots.llm1 – 高效开源的中等规模 MoE 文本大模型

未分类 2025-06-22 13:36

dots.llm1 是由小红书 hi lab（Humane Intelligence Lab）团队开发的一款中等规模的混合专家（Mixture of Experts，MoE）文本大模型。该模型拥有 1420 亿参数总量，激活参数量为 140 亿。它在 11.2 万亿高质量非合成 token 数据上进行预训练，凭借高效的训练技术和数据处理框架，其性能可与 Qwen2.5-72B 等更大规模的模型相媲美。

核心功能

dots.llm1 具备多种核心功能，能够满足不同场景下的需求：

多语言文本生成：支持高质量的中英文文本创作，适用于文案撰写、新闻报道、故事创作等多种需要创意和表达的领域。
复杂指令处理：能够准确理解并执行复杂的任务指令，例如数据整理、代码生成、信息提取等。
知识问答服务：提供精准的知识检索功能，帮助用户快速获取所需信息。
数学与编程推理：具备强大的数学计算能力和基本的编程逻辑推理能力，可辅助解决复杂问题和编写简单代码。
多轮对话支持：能够进行连贯的上下文对话，为用户提供自然流畅的交互体验。

技术原理

dots.llm1 采用了先进的技术架构和优化策略：

MoE 架构设计：基于解码器端到端 Transformer 结构，采用 6in128 专家配置。每个输入 token 最多激活 6 个专家模型（共 128 个），通过门控机制选择最相关的专家进行计算，显著提高计算效率。
高效训练方法：利用 11.2T 高质量 token 数据进行预训练，数据来源包括公共爬取和自有网络抓取，并经过严格的数据清洗流程。采用 Interleaved 1F1B 流水并行技术和 Grouped GEMM 优化算法，大幅提升了模型的训练效率。
创新性训练策略：通过两阶段监督微调策略，在保持模型通用能力的同时，进一步强化特定领域的表现。
优化的数据处理流程：针对不同应用场景设计了专门的数据处理模块，确保数据质量和多样性。

支持平台

dots.llm1 支持多种平台和工具，方便用户使用和部署：

Hugging Face：模型可在 Hugging Face 平台上直接访问和使用。
GitHub：提供了完整的开源代码和相关资源，方便开发者进行研究和开发。
本地部署：支持通过 Docker 镜像快速部署，用户可以在本地环境中高效运行模型。

团队介绍

dots.llm1 由小红书 hi lab 团队开发，该团队专注于大模型技术与产品研发。团队特别强调“多元智能”和“拓展人机交互的边界”，致力于通过开源促进技术社区的交流与进步。

项目资源

官网：https://huggingface.co/rednote-hilab
源码：https://github.com/rednote-hilab/dots.llm1
技术报告：https://github.com/rednote-hilab/dots.llm1/blob/main/dots1_tech_report.pdf

业务场景

dots.llm1 适用于多种业务场景：

智能助手：支持多语言多轮对话，适用于客服、聊天机器人等场景。
内容生成：生成高质量的文章、诗歌、代码等。
知识问答：提供准确的知识解答，适用于教育、科研等领域。
数学推理：解决复杂的数学问题，适用于学术研究和教育。