1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

deepseek:2024年DeepSeekV3技术报告(英文版)

1987web2025-02-26人工智能AI10
今天分享的是:deepseek:2024年DeepSeekV3技术报告(英文版)报告共计:53页

今天分享的是:deepseek:2024年DeepSeekV3技术报告(英文版)

报告共计:53页

DeepSeek-V3 Technical Report由DeepSeek-AI撰写,介绍了强大的混合专家(MoE)语言模型DeepSeek-V3。该模型参数总量达671B,每个token激活37B,在性能、训练效率和成本控制上表现出色。

1. 模型架构创新:采用多头潜在注意力(MLA)和DeepSeekMoE架构,前者减少推理时的键值缓存,后者降低训练成本。创新提出无辅助损失的负载均衡策略,减少负载均衡对模型性能的负面影响;采用多token预测训练目标,提升模型性能,还可用于推测解码加速。

2. 训练基础设施优化:在拥有2048个NVIDIA H800 GPU的集群上训练,设计DualPipe算法等优化训练框架,实现计算与通信重叠,减少流水线气泡;定制跨节点全对全通信内核,优化内存占用。支持FP8混合精度训练,提出细粒度量化策略等提升训练精度,降低内存和通信开销。

3. 训练过程与评估:预训练阶段,在14.8万亿高质量多样本token上训练,数据处理优化且采用新策略。经两次上下文长度扩展,模型能处理128K长度输入。评估显示,其基础模型在多数基准测试中表现优异,超越其他开源模型。经过监督微调(SFT)和强化学习(RL)的后训练,模型性能进一步提升,聊天版本性能可与领先的闭源模型媲美。

4. 硬件设计建议:基于模型训练和通信实现,建议硬件厂商开发能卸载通信任务的硬件,统一网络接口;提高张量核心中FP8 GEMM的累加精度,支持细粒度量化、在线量化和转置GEMM操作,以提升计算效率。

5. 研究贡献与展望:DeepSeek-V3在架构、训练和后训练方面都有创新成果,缩小了开源与闭源模型的差距。未来研究可针对模型现有局限性进一步优化,推动大语言模型发展。

以下为报告节选内容