您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

十个关键词，带你全面看懂DeepSeek！

1987web2025-02-23人工智能AI67

DeepSeek作为当下热门的人工智能大模型，其强大的推理能力和高效的训练机制引发了广泛关注。然而，许多人对其背后的实现原理和技术创新知之甚少。这篇文章，我们看看作者的分享。

DeepSeek的火热仍在持续。

相信很多读者在使用DeepSeek的时候，都会默认开启深度思考功能，风叔在阅读DeepSeek思考过程上的时间，甚至比最终回答还要多。

这是风叔在使用其他大模型时，从来没有过的体验。通过思考过程，你能真实感受到DeepSeek确实是在深度推理和反思，而非从四面八方获取各种零碎信息之后进行总结输出。

这样的推理效果也激发了风叔进一步探索DeepSeek的念头，经过这段时间的深度研究，风叔总结出来十个关键词，带你全面看懂DeepSeek。

相信大家在读完这篇文章之后，会对下面几个问题有比较清晰的答案：

DeepSeek的实现原理是什么？为什么DeepSeek具备如此强大的推理能力？为什么DeepSeek能大幅降低训练成本？DeepSeek会对英伟达造成怎样的冲击？

风叔的研究方法主要是阅读DeepSeek最重要的两篇论文，《DeepSeek-V3 Technical Report》、《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》，以及研究DeepSeek在Github上的开源代码。

关键词一：多头潜在注意力MLA

多头潜在注意力（Multi-head Latent Attention），是DeepSeek在推理成本上大幅降低的关键创新。

在传统的Transformer架构中，通过多头注意力机制（Multi-head Attention），模型可以同时关注输入的不同部分，每个attention head都会独立学习输入序列中的特征。

但是当序列长度显著增加时，键值（KV）缓存也会大幅增加，从而带来巨大的内存负担。

为了解决这个问题，DeepSeek创新性地提出了多头潜在注意力MLA机制。通过低秩联合压缩技术，将多个输入向量压缩为一个隐藏向量（Latent Vector），从而减少了93.3%的键值缓存，如下图右下部分所示。

同时，DeepSeek还通过Multi-token Prediction机制，同时预测多个token，而非逐个token进行预测，大幅提升了模型预测的效率。

关键词二：专家混合模型MOE

专家混合模型，是一种将多个专家模型组合在一起，以提高模型性能的架构。

MOE包括多个专家网络和一个门控网络。每个专家网络都是独立的模型，负责处理特定领域的问题。门控网络的作用则是根据输入来确定每个专家网络的权重，从而路由给合适的模型进行处理。

在DeepSeek模型中，有一个专门的MOE层，包括了动态路由机制和专家共享机制，如下图右上部分所示。

通过动态路由机制，每次输入会选择性地激活部分专家模型，而非同时激活所有专家模型，从而提升计算的效率。同时，通过专家共享机制，在不同层之间可以共享部分专家模型的参数，从而减少模型冗余。

关键词三：负载均衡优化

MOE架构其实早在2021年就提出来了，但一直没有特别好的实践案例。因为如果要用MoE架构去训练一个超大的模型，存在计算复杂度高、训练难度大等问题，其中最大的挑战是负载均衡。

为了解决这个问题，DeepSeek提出了一种非常创新的策略，Auxiliaray-Loss-Free Load Balancing。

这个策略的核心是，当给一个输入token计算该路由到哪个专家模型的时候，会加上一个专家Bias。如果发现某个专家模型处于过载状态，就会降低它的Bias；如果发现某个专家模型处于闲置状态，就会增加它的Bias。

这个思想和服务器集群的负载均衡是相似的，通过这种策略让多个专家模型实现均衡，从而提升整体模型的利用率。

关键词四：模型蒸馏

模型蒸馏，是将一个复杂且性能优异的教师模型的知识，迁移到一个简单的学生模型，使学生模型在保持较高性能的同时，还能显著减少模型的参数规模和计算成本。

模型蒸馏的核心思想是利用教师模型输出的软标签（即概率分布），而非硬标签，来指导学生模型的训练。这样，学生模型不仅能学习到数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力。

模型蒸馏主要包括四步骤：

训练教师模型：首先使用Transformer模型，训练一个性能优异但通常较为庞大的教师模型。生成软标签：使用教师模型对训练数据进行预测，获得每个样本的概率分布。训练学生模型：设计一个较小的学生模型，并使用软标签以及硬标签共同训练。优化与调整：通过调整温度参数、损失函数权重等超参数，优化学生模型的性能，使其尽可能接近教师模型。

DeepSeek是完全原创还是蒸馏了一部分其他模型，目前众说纷纭，但风叔认为这个并不重要。

第一个做出蒸汽机的是英国人纽可门，用来进行矿井抽水，效率非常低。瓦特在修理纽可门蒸汽机时，进行了重大创新和改进，发明了瓦特蒸汽机。从某种程度上来说，瓦特也是蒸馏了纽可门蒸汽机，但并不能因此否认瓦特的贡献，否则科技史上的那些创新都要被打上蒸馏的标签了。

关键词五：纯强化学习

传统训练AI推理能力的方法，通常是先通过监督微调SFT，让初始模型在大量的思维链（COT）训练数据集上，通过多个SFT周期进行训练。再用奖励模型让模型更新自己的策略网络和价值网络，以最大化预期奖励，如下图所示。

DeepSeek则完全抛开了利用大量思维链COT模板进行监督微调的范式，直接进行强化学习，依靠简单的奖惩信号对模型进行优化，大幅降低训练消耗。

DeepSeek-R1只用了一套最简单的奖励系统，来激发AI的推理能力。

第一，是准确性奖励。评估方法非常简单，正确就加分，错误就扣分。比如在具有确定性结果的数学问题中，模型需要以特定格式（）提供最终答案。

第二，是格式奖励。该奖励模型强制要求模型将思考过程输出在之间，符合格式要求就加分，不符合要求就扣分。

然后让AI在GRPO（Group Relative Policy Optimization）的规则下自我采样、比较和优化。

关键词六：GRPO

GRPO，全称是Group Relative Policy Optimization，是一种针对群体智能进行策略优化的算法。

顾名思义，该算法只考虑群体之间的相对关系和影响，使得整个群体在环境交互过程中，实现某种整体目标或优势。

DeepSeek是使用GRPO算法的核心流程如下

对于一个问题，模型生成5个不同的解答步骤；检查每个解答的准确性，包括输出结果和格式，并给出奖励分数，比如正确得1分，错误得0分计算相对优势，包括群体的平均奖励（比如5个回答对了3个，平均奖励为0.6），计算每个回答的优势（优势 = 回答奖励 – 0.6）更新策略模型，增加优势为正的回答生成概率，减少优势为负的回答生成概率

DeepSeek为什么会选择GRPO算法，而不是大家更熟悉的PPO算法呢？

首先，PPO算法依赖价值模型估计状态价值，从而帮助计算优势函数。但是因为语言的状态空间巨大且复杂，很难为语言构建合理的价值模型。而GPRO算法只对输出的语言内容进行相对优势计算，不需要设计价值模型。

其次，PPO算法需要训练奖励模型进行评估，而GRPO算法使用基于规则的奖励，通过规则直接评估回答的准确性，不需要训练奖励模型。

这也是DeepSeek能大幅降低训练成本的核心原因之一。

关键词七：过程奖励模型PRM

在传统奖励模型中，AI主要根据任务的最终结果获得奖励，但是AI为了追求最终奖励，可能采取一些短视或不合理的行为。

而过程奖励模型（Process Reward Model）会对AI在整个任务执行过程中的步骤进行评估，根据这些中间步骤的质量、合理性、与预期策略的相符程度等因素来给予奖励。

DeepSeek在训练模型的过程中，采用了过程奖励模型。这种奖励策略能够让AI更明确每一步的正确行为方向，有助于AI更快、更稳定地学习到最优策略。

关键词八：长思维链冷启动数据

由于DeepSeek-V3完全通过奖惩信号进行模型优化，没有任何经过人类指示的标准答案作为参考，因此导致了可读性差的问题，即模型的思维过程可能难以被人理解。为了解决这个问题，DeepSeek-R1引入了冷启动数据。

第一阶段是冷启动：通过数千条高质量的长思维链（Long-COT）数据进行模型微调，用于提升模型的初始推理能力和回答格式，为后续的强化学习提供良好的初始状态。

第二阶段是以推理为导向的强化学习：通过GRPO算法，以DeepSeek-V3为基础进行强化学习，增强模型在推理任务上的准确性。

第三阶段是拒绝抽样和监督微调：将推理任务数据和非推理任务数据混合，构建新的训练数据集，使用混合数据对策略模型进行再微调，从而进一步提升模型的推理能力，并且扩展模型在非推理任务上的能力。

第四阶段是全面场景的强化学习：对于推理任务，继续使用基于规则的奖励系统；对于非推理任务，结合RLHF（人类反馈强化学习），对齐人类偏好。

关键词九：PTX

除了大幅降低GPU资源消耗之外，DeepSeek还严重动摇了英伟达的生态基础，CUDA。

CUDA，全称是Compute Unified Device Architecture，是英伟达推出的并行计算平台和编程模型，允许开发者使用C、C++语言在英伟达GPU上进行通用计算。CUDA提供了非常多的API和工具，让开发者可以非常方便地将计算任务分配到GPU的多个线程并行计算

因此，CUDA成为开发者绕不开的平台，是英伟达的关键护城河。

而DeepSeek的实践证明，CUDA构建的堡垒也是可以被攻破的。通过PTX（Parallel Thread Execution，可以独立于具体的GPU硬件架构，介于高级编程语言和底层GPU机器码之间）汇编直接操作硬件层，可以获得更高的计算效率。

对英伟达致命的是，很多国产芯片都支持PTX，英伟达的CUDA护城河受到严重冲击。

在绕开CUDA的同时，DeepSeek还顺手冲击了英伟达的另一个关键护城河，NVLink。NVLINK是英伟达推出的一种专门为GPU与CPU之间高速数据传输所设计的互联技术，提供更宽的带宽和更低的延时，可以极大提升GPU密集型应用的性能，比如深度学习、图像计算、大数据分析。

而DeepSeek通过实践证明，NVLink也不是必须的，DPU完全可以替代。

关键词十：杰文斯悖论

上图是英伟达的股价在最近一个多月的表现，自从DeepSeek R1发布之后，英伟达先是大幅下跌，随后就开始了反复的震荡。

大家可能会疑惑，既然DeepSeek给英伟达造成了如此巨大的冲击，为什么英伟达从整体来看并未下降多少呢？

背后的原因可能是杰文斯悖论，由 19 世纪英国经济学家威廉・斯坦利・杰文斯在 1865 年的著作《煤炭问题》中首次提出。

19 世纪工业革命期间，蒸汽机热效率大幅提升，每单位煤炭可产生更多动力。市场原本认为煤炭消耗会大幅减少，但由于蒸汽机效率提高，其应用范围迅速扩展到铁路、纺织、矿业等领域，反而导致煤炭总需求量激增。

同样的，DeepSeek带来了推理成本的大幅下降，大家第一反应会认为这会减少GPU的算力消耗。但由于推理效率提高，AI应用场景会迅速扩张，甚至以前没有能力大量采购GPU的中小企业，也能参与这场AI盛宴，最终导致GPU总需求增加。

这里对于英伟达的影响在于，DeepSeek向世人证明了，即使不需要非常高端的GPU，也能进行高效的模型推理。因此，像华为昇腾、AMD等企业，会分走一部分英伟达的市场份额。

本文由人人都是产品经理作者【风叔】，微信公众号：【风叔云】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议。