十个关键词,带你全面看懂DeepSeek!
DeepSeek作为当下热门的人工智能大模型,其强大的推理能力和高效的训练机制引发了广泛关注。然而,许多人对其背后的实现原理和技术创新知之甚少。这篇文章,我们看看作者的分享。

DeepSeek的火热仍在持续。
相信很多读者在使用DeepSeek的时候,都会默认开启深度思考功能,风叔在阅读DeepSeek思考过程上的时间,甚至比最终回答还要多。
这是风叔在使用其他大模型时,从来没有过的体验。通过思考过程,你能真实感受到DeepSeek确实是在深度推理和反思,而非从四面八方获取各种零碎信息之后进行总结输出。
这样的推理效果也激发了风叔进一步探索DeepSeek的念头,经过这段时间的深度研究,风叔总结出来十个关键词,带你全面看懂DeepSeek。
相信大家在读完这篇文章之后,会对下面几个问题有比较清晰的答案:
DeepSeek的实现原理是什么?为什么DeepSeek具备如此强大的推理能力?为什么DeepSeek能大幅降低训练成本?DeepSeek会对英伟达造成怎样的冲击?风叔的研究方法主要是阅读DeepSeek最重要的两篇论文,《DeepSeek-V3 Technical Report》、《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,以及研究DeepSeek在Github上的开源代码。
关键词一:多头潜在注意力MLA
多头潜在注意力(Multi-head Latent Attention),是DeepSeek在推理成本上大幅降低的关键创新。
在传统的Transformer架构中,通过多头注意力机制(Multi-head Attention),模型可以同时关注输入的不同部分,每个attention head都会独立学习输入序列中的特征。
但是当序列长度显著增加时,键值(KV)缓存也会大幅增加,从而带来巨大的内存负担。
为了解决这个问题,DeepSeek创新性地提出了多头潜在注意力MLA机制。通过低秩联合压缩技术,将多个输入向量压缩为一个隐藏向量(Latent Vector),从而减少了93.3%的键值缓存,如下图右下部分所示。
同时,DeepSeek还通过Multi-token Prediction机制,同时预测多个token,而非逐个token进行预测,大幅提升了模型预测的效率。
关键词二:专家混合模型MOE
专家混合模型,是一种将多个专家模型组合在一起,以提高模型性能的架构。
MOE包括多个专家网络和一个门控网络。每个专家网络都是独立的模型,负责处理特定领域的问题。门控网络的作用则是根据输入来确定每个专家网络的权重,从而路由给合适的模型进行处理。
在DeepSeek模型中,有一个专门的MOE层,包括了动态路由机制和专家共享机制,如下图右上部分所示。
通过动态路由机制,每次输入会选择性地激活部分专家模型,而非同时激活所有专家模型,从而提升计算的效率。同时,通过专家共享机制,在不同层之间可以共享部分专家模型的参数,从而减少模型冗余。
关键词三:负载均衡优化
MOE架构其实早在2021年就提出来了,但一直没有特别好的实践案例。因为如果要用MoE架构去训练一个超大的模型,存在计算复杂度高、训练难度大等问题,其中最大的挑战是负载均衡。
为了解决这个问题,DeepSeek提出了一种非常创新的策略,Auxiliaray-Loss-Free Load Balancing。
这个策略的核心是,当给一个输入token计算该路由到哪个专家模型的时候,会加上一个专家Bias。如果发现某个专家模型处于过载状态,就会降低它的Bias;如果发现某个专家模型处于闲置状态,就会增加它的Bias。
这个思想和服务器集群的负载均衡是相似的,通过这种策略让多个专家模型实现均衡,从而提升整体模型的利用率。
关键词四:模型蒸馏
模型蒸馏,是将一个复杂且性能优异的教师模型的知识,迁移到一个简单的学生模型,使学生模型在保持较高性能的同时,还能显著减少模型的参数规模和计算成本。
模型蒸馏的核心思想是利用教师模型输出的软标签(即概率分布),而非硬标签,来指导学生模型的训练。这样,学生模型不仅能学习到数据的类别信息,还能够捕捉到类别之间的相似性和关系,从而提升其泛化能力。
模型蒸馏主要包括四步骤:
训练教师模型:首先使用Transformer模型,训练一个性能优异但通常较为庞大的教师模型。生成软标签:使用教师模型对训练数据进行预测,获得每个样本的概率分布。训练学生模型:设计一个较小的学生模型,并使用软标签以及硬标签共同训练。优化与调整:通过调整温度参数、损失函数权重等超参数,优化学生模型的性能,使其尽可能接近教师模型。DeepSeek是完全原创还是蒸馏了一部分其他模型,目前众说纷纭,但风叔认为这个并不重要。
第一个做出蒸汽机的是英国人纽可门,用来进行矿井抽水,效率非常低。瓦特在修理纽可门蒸汽机时,进行了重大创新和改进,发明了瓦特蒸汽机。从某种程度上来说,瓦特也是蒸馏了纽可门蒸汽机,但并不能因此否认瓦特的贡献,否则科技史上的那些创新都要被打上蒸馏的标签了。
关键词五:纯强化学习
传统训练AI推理能力的方法,通常是先通过监督微调SFT,让初始模型在大量的思维链(COT)训练数据集上,通过多个SFT周期进行训练。再用奖励模型让模型更新自己的策略网络和价值网络,以最大化预期奖励,如下图所示。
DeepSeek则完全抛开了利用大量思维链COT模板进行监督微调的范式,直接进行强化学习,依靠简单的奖惩信号对模型进行优化,大幅降低训练消耗。
DeepSeek-R1只用了一套最简单的奖励系统,来激发AI的推理能力。
第一,是准确性奖励。评估方法非常简单,正确就加分,错误就扣分。比如在具有确定性结果的数学问题中,模型需要以特定格式()提供最终答案。
第二,是格式奖励。该奖励模型强制要求模型将思考过程输出在之间,符合格式要求就加分,不符合要求就扣分。
然后让AI在GRPO(Group Relative Policy Optimization)的规则下自我采样、比较和优化。
关键词六:GRPO
GRPO,全称是Group Relative Policy Optimization,是一种针对群体智能进行策略优化的算法。
顾名思义,该算法只考虑群体之间的相对关系和影响,使得整个群体在环境交互过程中,实现某种整体目标或优势。
DeepSeek是使用GRPO算法的核心流程如下
对于一个问题,模型生成5个不同的解答步骤;检查每个解答的准确性,包括输出结果和格式,并给出奖励分数,比如正确得1分,错误得0分计算相对优势,包括群体的平均奖励(比如5个回答对了3个,平均奖励为0.6),计算每个回答的优势(优势 = 回答奖励 – 0.6)更新策略模型,增加优势为正的回答生成概率,减少优势为负的回答生成概率DeepSeek为什么会选择GRPO算法,而不是大家更熟悉的PPO算法呢?
首先,PPO算法依赖价值模型估计状态价值,从而帮助计算优势函数。但是因为语言的状态空间巨大且复杂,很难为语言构建合理的价值模型。而GPRO算法只对输出的语言内容进行相对优势计算,不需要设计价值模型。
其次,PPO算法需要训练奖励模型进行评估,而GRPO算法使用基于规则的奖励,通过规则直接评估回答的准确性,不需要训练奖励模型。
这也是DeepSeek能大幅降低训练成本的核心原因之一。
关键词七:过程奖励模型PRM
在传统奖励模型中,AI主要根据任务的最终结果获得奖励,但是AI为了追求最终奖励,可能采取一些短视或不合理的行为。
而过程奖励模型(Process Reward Model)会对AI在整个任务执行过程中的步骤进行评估,根据这些中间步骤的质量、合理性、与预期策略的相符程度等因素来给予奖励。
DeepSeek在训练模型的过程中,采用了过程奖励模型。这种奖励策略能够让AI更明确每一步的正确行为方向,有助于AI更快、更稳定地学习到最优策略。
关键词八:长思维链冷启动数据
由于DeepSeek-V3完全通过奖惩信号进行模型优化,没有任何经过人类指示的标准答案作为参考,因此导致了可读性差的问题,即模型的思维过程可能难以被人理解。为了解决这个问题,DeepSeek-R1引入了冷启动数据。
第一阶段是冷启动:通过数千条高质量的长思维链(Long-COT)数据进行模型微调,用于提升模型的初始推理能力和回答格式,为后续的强化学习提供良好的初始状态。
第二阶段是以推理为导向的强化学习:通过GRPO算法,以DeepSeek-V3为基础进行强化学习,增强模型在推理任务上的准确性。
第三阶段是拒绝抽样和监督微调:将推理任务数据和非推理任务数据混合,构建新的训练数据集,使用混合数据对策略模型进行再微调,从而进一步提升模型的推理能力,并且扩展模型在非推理任务上的能力。
第四阶段是全面场景的强化学习:对于推理任务,继续使用基于规则的奖励系统;对于非推理任务,结合RLHF(人类反馈强化学习),对齐人类偏好。
关键词九:PTX
除了大幅降低GPU资源消耗之外,DeepSeek还严重动摇了英伟达的生态基础,CUDA。
CUDA,全称是Compute Unified Device Architecture,是英伟达推出的并行计算平台和编程模型,允许开发者使用C、C++语言在英伟达GPU上进行通用计算。CUDA提供了非常多的API和工具,让开发者可以非常方便地将计算任务分配到GPU的多个线程并行计算
因此,CUDA成为开发者绕不开的平台,是英伟达的关键护城河。
而DeepSeek的实践证明,CUDA构建的堡垒也是可以被攻破的。通过PTX(Parallel Thread Execution,可以独立于具体的GPU硬件架构,介于高级编程语言和底层GPU机器码之间)汇编直接操作硬件层,可以获得更高的计算效率。
对英伟达致命的是,很多国产芯片都支持PTX,英伟达的CUDA护城河受到严重冲击。
在绕开CUDA的同时,DeepSeek还顺手冲击了英伟达的另一个关键护城河,NVLink。NVLINK是英伟达推出的一种专门为GPU与CPU之间高速数据传输所设计的互联技术,提供更宽的带宽和更低的延时,可以极大提升GPU密集型应用的性能,比如深度学习、图像计算、大数据分析。
而DeepSeek通过实践证明,NVLink也不是必须的,DPU完全可以替代。
关键词十:杰文斯悖论
上图是英伟达的股价在最近一个多月的表现,自从DeepSeek R1发布之后,英伟达先是大幅下跌,随后就开始了反复的震荡。
大家可能会疑惑,既然DeepSeek给英伟达造成了如此巨大的冲击,为什么英伟达从整体来看并未下降多少呢?
背后的原因可能是杰文斯悖论,由 19 世纪英国经济学家威廉・斯坦利・杰文斯在 1865 年的著作《煤炭问题》中首次提出。
19 世纪工业革命期间,蒸汽机热效率大幅提升,每单位煤炭可产生更多动力。市场原本认为煤炭消耗会大幅减少,但由于蒸汽机效率提高,其应用范围迅速扩展到铁路、纺织、矿业等领域,反而导致煤炭总需求量激增。
同样的,DeepSeek带来了推理成本的大幅下降,大家第一反应会认为这会减少GPU的算力消耗。但由于推理效率提高,AI应用场景会迅速扩张,甚至以前没有能力大量采购GPU的中小企业,也能参与这场AI盛宴,最终导致GPU总需求增加。
这里对于英伟达的影响在于,DeepSeek向世人证明了,即使不需要非常高端的GPU,也能进行高效的模型推理。因此,像华为昇腾、AMD等企业,会分走一部分英伟达的市场份额。
本文由人人都是产品经理作者【风叔】,微信公众号:【风叔云】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议。