一文让你彻底搞懂deepseek!

今年年底,deepseek霸屏了,火爆全球,好像如果谁不说两句deepseek就跟不上时代似的,就连自称宇宙第一博主的听风的蝉也开始讲deepseek了。

当然,他不是专业人士,说的也都是很肤浅的,只是说了什么是人工智能,中国与美国人工智能的对比,图灵测试等,对于deepseek也没有说到点子上。
那deepseek到底是什么呢?deepseek的中文意思是深度求索,它是一个以Transformer为底层架构的大模型,如果你对大模型、对Transformer架构还不了解的话,请出门左转,看我的另一篇文章《一篇文章让你搞懂大模型到底是什么?》,这里就不再啰嗦了。
虽然说,deepseek是以Transformer架构为基础的,但是它与同样以Transformer架构为基础的ChatGPT有大的不同,deepseek比ChatGPT技术更先进,训练更快,效率更高,更节省成本,而且是开源的、免费的,这一下就掀翻了ChatGPT的饭桌,不要忘了,玩ChatGPT一个月要花200个美国银子的。美国科技圈一下子就炸锅了。
deepseek到底有什么与众不同的,请先看它的架构:
下面是ChatGPT的架构
deepseek虽然用了Transformer架构,但是它也创新了自己的东西:
(1)RMS Norm(均方根归一化)
RMSNorm(均方根归一化)是一种用于深度学习模型的归一化技术,特别适用于Transformer等架构。它作为LayerNorm(层归一化)的替代方案,可以简化归一化过程,降低计算复杂度,同时保持或提升模型的性能。
什么是归一化呢?归一化就是把不同范围的数据调整到同一个标准范围内,方便比较和处理。
假设你是一个老师,你有两个班级的学生考试成绩:
班级A的成绩范围是百分制: 0到100分。班级B的成绩范围是十分制 :0到10分。现在你想比较这两个班级的成绩,但因为范围不同,直接比较会不公平。这时就可以用归一化来解决。
现在有班级A的成绩:50, 60, 80;班级B的成绩:5, 7, 9;我们需要把数据缩放到0到1之间,才好比较。
可以用公式:归一化值=(原始值−最小值)/(最大值−最小值)
班级A的归一化:最小值 = 50,最大值 = 80
归一化后的成绩:50: (50−50)÷(80−50)=0;60: (60−50)÷(80−50)=0.33;80: (80−50)÷(80−50)=1
班级B的归一化:最小值 = 5,最大值 = 9
归一化后的成绩:5: (5−5)÷(9−5)=0;7: (7−5)÷(9−5)=0.5;9: (9−5)÷(9−5)=1
结果:班级A归一化后的成绩:0, 0.33, 1;班级B归一化后的成绩:0, 0.5, 1
现在两个班级的成绩都在0到1之间,可以直接比较了。
只不过,在deepseek中归一化的方法用的是均方根。这种方法的好处是:
计算复杂度:RMSNorm减少了均值的计算,降低了整体计算量。
数值稳定性:RMSNorm避免了方差接近零的情况,提升了数值稳定性。
表现性能:在某些任务中,RMSNorm可以超过LayerNorm的性能。
(2)Attention(注意力机制)
在deepseek架构中也用了Attention(注意力机制),但你会发现,它所用的Attention(注意力机制)显然与ChatGPT不同,它的创新之处是:
①稀疏注意力机制(Sparse Attention Mechanisms): DeepSeek 采用稀疏注意力机制,只计算部分注意力权重,从而降低计算复杂度,提高模型训练和推理的效率。
想象你在读一本很厚的书,书里有1000页。如果你每一页都仔细读,那会花很多时间。但实际上,并不是每一页都重要,有些页可能只是引言、目录或者无关紧要的内容。
传统注意力机制:就像你每一页都仔细读,不管它重不重要。这样虽然全面,但效率很低。
稀疏注意力机制:就像你只挑重要的页来读。比如,你只看目录、章节开头和结尾,或者那些有重点标注的部分。这样你就能快速抓住书的主要内容,节省大量时间。
具体到DeepSeek模型:
传统注意力机制:计算所有词之间的注意力权重,计算量大。
稀疏注意力机制:只计算部分词之间的注意力权重,忽略那些不重要的词,从而降低计算量,提高效率。
好处就是:
降低计算复杂度:只计算部分注意力权重,减少计算量。
提高效率:模型训练和推理速度更快。
节省资源:减少内存和计算资源的消耗。
②多头潜在注意力(Multi-Head Latent Attention,MLA):多头潜在注意力(MLA)是一种改进的注意力机制,能够提高Transformer模型在处理长序列时的效率和性能。
MHA(多头注意力)通过多个注意力头并行工作捕捉序列特征,但面临高计算成本和显存占用;MLA(多头潜在注意力)则通过低秩压缩优化键值矩阵,降低显存占用并提高推理效率。
想象你是一个项目经理,负责一个复杂的项目。这个项目有很多不同的任务,比如设计、开发、测试、市场推广等。为了高效完成项目,你组建了一个团队,每个团队成员负责不同的任务。
传统注意力机制:就像你一个人负责所有任务,虽然你能完成任务,但效率很低,容易出错。
多头潜在注意力(MLA):就像你有一个团队,每个团队成员专注于自己的任务。比如,设计师负责设计,开发人员负责开发,测试人员负责测试。这样,每个人都能高效完成自己的任务,整个项目也能更快更好地完成。
注意力与潜在注意力的区别又是什么呢?
注意力:你现在正在看的东西或想的事情。比如你在看书时,注意力就在书的内容上。
潜在注意力:你可能会注意到但还没注意到的东西。比如你在看书时,旁边有个手机,虽然你现在没看它,但如果它响了,你可能会马上注意到。
注意力是你当前关注的东西,潜在注意力是你可能会关注但还没关注的东西。
具体到Transformer模型:
传统注意力机制:只有一个头来处理所有信息,计算量大,效率低。
多头潜在注意力(MLA):有多个头,每个头专注于不同的信息,并行处理,提高效率和性能。
好处就是:
提高效率:多个头并行处理信息,加快计算速度。
提升性能:每个头专注于不同的信息,能更好地捕捉长序列中的复杂关系。
增强模型能力:多个头可以处理更多样化的信息,提高模型的表达能力。
(3)RMS Norm(均方根归一化)
同上,不做重复解释。
(4)Feed-Forward Network(深度前馈网络)
deepseek用的前馈神经网络与ChatGPT的前馈神经网络也不一样,我们可以看到,它引入了MoE框架。
MoE,全称Mixture of Experts, 即混合专家模型:MoE架构就像一个有着众多专家的团队,其中每个专家擅长处理某类特定任务。当接收到任务时,模型会把任务分配给最擅长该任务的专家来处理,而不必让所有模块都参与。例如DeepSeek - V2拥有2360亿总参数,但处理每个token时仅210亿参数被激活;DeepSeek - V3总参数达6710亿,但每个输入只激活370亿参数。这样就极大地减少了不必要的计算量,使模型在处理复杂任务时更加快速灵活,同时也降低了对计算资源的需求,提升了计算效率和训练经济性。
就好比你有一个梁山好汉的团队,每个好汉都有自己独特的能力。当一个任务到来时,不是所有好汉都出动,而是只有最适合解决这个任务的好汉会出动。比如,需要盗取徐宁的雁翎甲,鼓上蚤时迁就会应声而出,需要远距离送情报,神行太保戴宗就会出动,需要射掉祝家庄的信号灯,小李广花荣就会出动,有时可能会出动几个好汉,比如要水中作业,只需出动阮氏三雄就行了,也不必所有会水的好汉都出动,像李俊、张顺、张横、童威、童猛歇着就行了。这就像DeepSeek的MoE架构,它有很多专家,但只有最擅长处理特定任务的专家会被激活。这样既节省了能量(计算资源),又提高了效率。
混合专家模型主要包含两个核心组件:
①稀疏MoE层:这些层替换了传统Transformer模型中的前馈网络(FFN)层。MoE层包含多个专家(例如8个),每个专家是一个独立的神经网络。目的是提高模型的效率和性能。以下是它的工作原理和特点:
多个专家:MoE层包含多个独立的神经网络(比如8个),每个神经网络称为一个专家。每个专家专门处理不同类型的输入。
路由机制:MoE层有一个路由机制,它会根据输入数据的特点,决定将数据分配给哪些专家处理。不是所有专家都会参与处理每个输入,只有少数几个会被激活,因此称为稀疏。
计算效率:由于每次只激活少数专家,MoE层可以显著减少计算量,同时保持模型的表达能力。
灵活性:MoE层可以根据任务需求动态调整专家的使用,从而更好地适应不同的数据分布和任务复杂度。
②门控网络或路由:这部分负责决定哪些令牌(token)被发送到哪个专家。有时,一个令牌甚至可以被发送到多个专家。令牌的路由方式是MoE使用中的一个关键点,因为路由器由学习的参数组成,并且与网络的其他部分一同进行预训练。
想象一下,你有一个团队,团队里有好几个人(专家),每个人擅长做不同的事情。现在有一堆任务(令牌),你需要决定把每个任务交给谁来做。
门控网络(路由)的作用就是帮你分配任务:
它会根据任务的特点,决定哪个专家最适合处理这个任务。
比如任务A(More)更适合交给专家2,任务B(Parameters)更适合交给专家1。
有时候,一个任务可能比较复杂,需要多个专家一起处理。
关键点:
这个分配任务的规则(路由)不是固定的,而是通过学习得到的。模型在训练过程中会不断调整规则,让任务分配得更合理。
路由规则和整个模型是一起训练的,所以它会变得越来越聪明,知道怎么分配任务最有效。
总的来说,门控网络就像一个聪明的项目经理,它知道怎么把不同的任务交给最合适的专家去处理,从而提高整个团队的效率。
(5)Transformer Block × L
Transformer Block × L 的意思是:把 Transformer 的基本单元(Transformer Block)重复堆叠 L 次。
Transformer Block 就像一块积木。如果你看到 Transformer Block × 12,就相当于把这块积木堆叠 12 层,搭成一个更高的塔。
为什么这么做:
每一层 Transformer Block 可以学习到数据的不同特征。堆叠的层数越多,模型的能力通常越强,可以处理更复杂的任务。
(6)deepseek还有其他绝活
①无辅助损失负载均衡
在MoE架构中,不同的专家模块可能会出现忙闲不均的情况。而无辅助损失负载均衡策略能够有效解决这个问题,让各个专家模块的工作负担更加均匀,避免出现部分模块负荷过重而其他模块闲置的现象,从而提升了整个模型的性能。
就好像在一个餐厅里,如果所有的顾客都挤在同一个服务员那里,那效率肯定很低。无辅助损失负载均衡就像是餐厅经理,他确保每个服务员的工作量都是均衡的,这样每个人都能得到快速的服务。
②多Token预测(MTP)
传统模型通常是逐个预测token,但DeepSeek的多Token预测技术能够一次预测多个token,就如同人们说话时常常会连续说出几个词来表达一个完整的意思一样。这种方式能让模型的推理速度更快,并且使生成的内容更加连贯。
这就像是你在说话时,不是一个字一个字地说,而是一句话一句话地说。这样,你的表达更流畅,别人也更容易理解你的意思。
所以,你会看到,你用ChatGPT聊天时,ChatGPT是一个字一个字的蹦,而我们的deepseek则是一句话一句话的说。
③FP8混合精度训练
在模型训练过程中,数据的精度非常重要。FP8混合精度训练是一种创新的训练方法,能够让模型在训练时采用更适宜的数据精度,在保证训练准确性的基础上减少计算量,节约时间和成本,使得大规模的模型训练变得更加容易,也使得在极大规模模型上进行训练变得可行且有效,如DeepSeek - V3便通过FP8混合精度训练框架验证了这点。
什么是FP8?
就好像你是一个厨师,正在做一道大餐(训练一个大型AI模型)。厨房里有两种工具:
大锅(高精度计算,比如FP32):能精确控制火候,但用起来很费劲,耗时间也耗煤气(计算资源)。
小锅(低精度计算,比如FP8):火候控制没那么精确,但用起来超快,省时间也省煤气。
什么是FP8混合精度训练?
就是你在做菜时,聪明地搭配使用大锅和小锅:
对于需要精细处理的步骤(比如调酱汁),你用大锅(高精度计算)。
对于简单粗暴的步骤(比如煮面条),你用小锅(低精度计算)。
这样既能保证菜的味道(模型精度),又能节省时间和煤气(计算资源)!
为什么FP8很特别?
FP8是一种超轻量级的小锅,它的精度比FP16(另一种常用的小锅)更低,但速度更快,省资源更多。不过,用它需要更小心,因为火候控制不好容易糊锅(数值溢出或精度丢失)。
FP8混合精度训练就是聪明地搭配使用高精度和低精度计算,既能保证模型效果,又能大幅提升训练效率,省钱省时间!就像厨师用大锅和小锅搭配做菜一样,既快又好!
④知识蒸馏
化学蒸馏装置
知识蒸馏就是把大模型的知识压缩成精华,教给小模型,让小模型既轻便又聪明,效果还和大模型差不多!例如DeepSeek - R1通过知识蒸馏,将长链推理模型的能力传授给标准的LLM,从而增强了标准LLM的推理能力。
就好比你是一个学霸老师(大模型),脑子里装满了各种复杂的知识(模型参数)。现在你要教一个学生(小模型),但这个学生脑子容量有限,记不住那么多东西。
知识蒸馏是什么?
就是你(学霸老师)用一种聪明的方法,把自己复杂的知识压缩成简单易懂的形式,教给学生(小模型):你先把知识总结成精华:比如把复杂的公式简化成口诀,或者把长篇大论变成几个关键词。然后教给学生:学生只需要记住这些精华,就能表现得和你差不多好!
为什么要用知识蒸馏?
学生(小模型)更轻便:它不需要像你(大模型)那样记住那么多东西,所以跑得更快,占的空间更小。但学生依然很聪明:因为它学到了你的精华知识,所以效果和你差不多!
就好像你(大模型)知道如何做满汉全席,但学生(小模型)只需要学会如何做几道招牌菜。
虽然学生不会做满汉全席,但它做的招牌菜味道和你做的几乎一样好!
模型蒸馏其实就是知识蒸馏的具体实现方式,只不过更强调模型到模型的过程。模型蒸馏就是 让小模型跟着大模型学习精华知识,最终让小模型既轻便又高效,同时效果还接近大模型!就像小厨师跟着大厨学做菜一样,虽然小厨师没有像大厨师一样会做很多菜,但是大厨师的拿手好菜小厨师学会了,做的既快又好!
⑤纯强化学习的尝试
一般来说,一个模型在训练过程中只会尝试一种固定训练方法来提升推理能力。而DeepSeek直接一次性实验了三种截然不同的技术路径:直接强化学习训练(R1-Zero)、多阶段渐进训练(R1)和模型蒸馏,还都成功了。
以训练R1 - Zero为例,采用纯强化学习的方式让模型在试错过程中学习。例如在游戏场景中,模型尝试不同的操作,并依据游戏给出的奖励或惩罚来判断自己的对错,逐步找到最佳的操作方法。不过这种训练方式会使得模型输出存在一些问题,像是无休止重复、可读性较差等,但它也为模型训练开启了新的方向。
比如你正在训练一只小狗(AI模型),教它完成一些任务,比如捡球。你没有给它详细的指令,而是让它自己尝试,然后根据它的表现给奖励或惩罚。
直接强化学习是什么?就是让小狗(AI模型)通过试错来学习:
小狗尝试:比如它跑过去咬住了球。
你给反馈:如果它做对了(比如把球叼回来),你就奖励它一块骨头(正反馈)。如果它做错了(比如把球咬坏了),你就用棍子打它一下(负反馈)。
小狗学习:通过不断尝试和反馈,小狗慢慢学会怎么正确完成任务。
为什么要用直接强化学习?
不需要详细指导:你不需要告诉小狗每一步该怎么做,它自己会摸索出最佳方法。
适应复杂环境:即使任务很复杂(比如在混乱的环境中捡球),小狗也能通过试错找到解决办法。
你让小狗在公园里捡球,公园里有很多干扰(比如其他狗狗、小孩、飞盘)。
小狗一开始可能会分心,但通过不断尝试和你的反馈,它最终学会了专注任务,成功捡球!
直接强化学习就是让AI模型通过试错和反馈来学习,就像训练小狗一样。它不需要详细的指令,而是通过不断尝试和调整,最终学会完成任务!
deepseek还加入蒙特卡洛树搜索(MCTS),让模型在多种可能中搜索最好的可能。
比如你正在玩一个迷宫游戏,目标是找到出口。迷宫里有很多岔路,你不知道哪条路是对的。为了找到出口,你决定用以下方法:
随便走几步试试:每次走到一个岔路口,你就随机选一条路走几步,看看能不能找到出口。
记住结果:如果这条路走不通,你就退回来,记住这条路不好走。
多试几次:你反复尝试不同的路,慢慢记住哪些路更有希望找到出口。
最终选择:经过多次尝试,你找到了一条最有可能通往出口的路,然后果断选择它!
蒙特卡洛树搜索是什么?
就是上面这个迷宫试路方法的升级版,只不过是用在计算机上:
模拟尝试:计算机会模拟很多次可能的路径(比如下棋的每一步)。
评估结果:每次模拟结束后,计算机会评估这条路的好坏。
记录经验:计算机会记住哪些选择更有可能成功。
做出决策:经过大量模拟后,计算机会选择最有可能成功的那条路。
比如在下棋时,计算机会模拟很多次可能的走法:
如果某一步经常导致胜利,计算机会记住这一步。
如果某一步经常导致失败,计算机会避免这一步。
最终,计算机会选择胜率最高的那一步走法。
蒙特卡洛树搜索就是通过大量模拟和试错,找到最佳决策的方法。就像在迷宫里反复尝试不同的路,最终找到出口一样!
阿尔法狗就是通过使用蒙特卡洛树搜索的方法进行训练,最终在人机大战中战胜世界围棋九冠王的李世石。
蒸馏和强化学习,谁更胜一筹?
这就好比两个学生,一个学生自己努力学习(强化学习),另一个学生跟着一个学习特别好的同学(DeepSeek - R1)学习(蒸馏),结果发现跟着好同学学习的学生进步更大。这说明,把大模型的能力蒸馏到小模型上,效果真的很好,而且比小模型自己进行大规模强化学习更有效。不过,要想让模型的智能有更大的突破,可能还是需要更强大的基础模型和更大规模的强化学习。
⑥多阶段渐进训练和冷启动数据
DeepSeek - R1引入了多阶段训练和冷启动数据,这有助于提升模型的性能。多阶段训练 策略,就像学生要经历小学、中学、大学等不同阶段的学习,逐步提升能力。
阶段一: 打基础 - 冷启动 SFT
这个阶段就像小学阶段,目标是 入门。 R1 使用前面提到的 冷启动数据,通过监督微调 (SFT) 的方式,让模型初步具备推理能力,并且让它的回答更流畅易懂。 就像小学生先学习基础的加减乘除和简单的语言表达。
阶段二:攻难题 - 推理导向的 RL
进入中学阶段,就要开始 攻克难题 了! 这个阶段,R1 沿用了 R1-Zero 的强化学习 (RL) 方法,但更加专注于提升数学、代码、科学、逻辑推理等核心能力。 同时,还加入了 语言一致性奖励,就像老师 纠正发音, 减少 R1-Zero 出现的 语言混合 问题,让它说更 地道 的话。
举个例子:这个阶段就像让 AI 大量刷 奥数题、编程题 和 科学难题, 并根据答案的正确性获得奖励,从而不断提升解题能力。 同时,如果它在中文回答中突然冒出英文单词,就会受到 惩罚 促使它使用更纯粹的中文。
阶段三:扩知识面 - 拒绝采样 + SFT
到了 大学阶段,就要 拓展知识面, 学习更广泛的知识了! 这个阶段,R1 利用阶段二训练出的模型,自己生成了 海量的推理训练样本 (约 60 万个)。 这就像让学霸自己出题给自己做,进一步巩固和提升推理能力。 同时,还加入了 约 20 万个非推理数据 (例如写作、问答等), 让 R1 不仅会 解题,还会 写文章、回答问题, 成为 通才。
拒绝采样 是一种筛选机制,就像 优中选优,模型会生成很多答案,然后挑选出质量更高的答案进行学习, 从而提高训练效率。
阶段四: 全面发展 - 全场景 RL
最后,进入 工作实习 阶段,要让 R1 全面发展,适应各种真实场景的需求! 这个阶段,R1 使用 更多样化的奖励信号 (推理任务用 规则奖励,通用任务用 人类偏好奖励) 和 更多样化的提示,进行强化学习训练。 目标是让 R1 不仅 推理能力强,还 有用 (helpful) 且 无害 (harmless),真正成为一个可靠的 AI 助手。
人类偏好奖励 就像让用户来 打分,告诉 AI 哪些回答更符合人类的喜好,哪些回答不够好,从而让 AI 更懂 人话,更贴近用户需求。
啥是冷启动?冷启动是指在模型或系统初始运行阶段,由于缺乏足够的历史数据或用户行为信息,而面临难以做出智能决策或提供个性化服务的问题。这就像我们开车,冬天的时候,车子得先预热一下才能开得更顺。DeepSeek是这样解决这个问题的,它先收集了几千条长思维链的数据,用这些数据来微调模型,让模型有个好的开始。这些数据都是经过精心设计的,可读性很强,就像你看的我这篇简单易懂的科普文章一样。冷启动数据就像是给运动员的启动包,帮助他在开始时就能快速进入状态。
(7)deepseek为什么会训练成本低,且又高效?
DeepSeek 之所以训练成本低且运行高效,主要是因为它在设计和实现上采用了一系列优化策略和技术。以下是一些关键原因:
① 模型结构优化
轻量级设计:DeepSeek 的模型结构经过精心设计,去掉了不必要的复杂部分,保留了最核心的功能。就像一辆车,去掉多余的装饰,只保留最关键的部件,既省油又跑得快。
模块化设计:模型被分成多个小模块,每个模块专注于一个任务。这样可以根据需要灵活调整,避免浪费资源。
② 混合精度训练
用对工具做对事:DeepSeek 在训练时使用了混合精度(比如 FP16 或 FP8),简单任务用低精度计算(省资源),复杂任务用高精度计算(保质量)。就像做饭时,切菜用普通刀,雕花用精细刀,既快又好。
减少计算量:低精度计算可以大幅减少计算资源的消耗,从而降低训练成本。
③分布式训练
人多力量大:DeepSeek 使用分布式训练技术,把任务分给多个设备(比如多个 GPU 或服务器)同时处理。就像一群人一起搬砖,比一个人搬快多了。
高效通信:设备之间的数据传输经过优化,减少了等待时间,进一步提升了效率。
④知识蒸馏
学霸教学生:DeepSeek 使用知识蒸馏技术,让一个大模型(学霸)教一个小模型(学生)。小模型只学精华部分,既轻便又高效,但效果接近大模型。
降低推理成本:小模型在运行时需要的计算资源更少,因此运行效率更高。
⑤数据增强与高效采样
数据利用最大化:DeepSeek 通过对训练数据进行增强(比如旋转、裁剪等),让模型从有限的数据中学到更多知识。就像用同样的食材做出多种菜式,既省钱又丰富。
高效采样:只选择对训练最有帮助的数据,避免浪费资源在无关紧要的数据上。
⑥硬件与软件协同优化
硬件加速:DeepSeek 充分利用现代硬件(如 GPU、TPU)的加速能力,让计算更快更高效。
软件优化:代码和算法经过高度优化,减少了不必要的计算和内存占用。
⑦自监督学习与预训练
先自学再精修:DeepSeek 使用自监督学习技术,先让模型在大量无标签数据上自学,然后再用少量有标签数据精修。这样既减少了标注数据的成本,又提高了模型的效果。
预训练模型:DeepSeek 可以基于已有的预训练模型进行微调,避免从头开始训练,节省时间和资源。
⑧中文比英文简洁,训练起来更快。
DeepSeek 之所以训练成本低且运行高效,是因为它像一位精打细算的厨师:用最合适的工具(混合精度、硬件加速)。用最少的食材(高效采样、数据增强)。用最聪明的方法(知识蒸馏、自监督学习)。还叫了一群帮手(分布式训练)。最终,它既能做出美味佳肴(高质量模型),又省时省力(低成本高效运行)!
(8)deepseek为什么要开源?开源了怎么挣钱?
为什么 DeepSeek 要开源?
deepseek不缺钱:deepseek背后的靠山是幻方量化,幻方量化是中国私募量化基金的头部公司,管理资产过千亿,deepseek根本就不缺钱。
deepseek的成本远远低于openAI:openAI烧掉了上百亿美元,它所以得东西都是从头开始的,deepseek不一样,它用的硬件和技术都是现成的,幻方量化的英伟达芯片早在10年前都已经买好了,本来是用来炒股的,现在闲着也是闲着,就给deepseek用了。
开源免费能够迅速横扫全球市场:deepseek在140个国家迅速登上榜首,印度都自称自己赢麻了,印度、非洲、拉丁美洲、东南亚、欧盟都没有充足的资金和能力研发顶尖的大模型,它们就直接投入了deepseek的怀抱,因为deepseek的开源免费,像欧盟、日韩、东盟、美国微软、亚马逊、英伟达等顶尖科技公司也都接入了的deepseek。
推动技术发展:开源可以让更多人使用和改进 DeepSeek 的技术,从而加速整个领域的发展。就像大家一起种树,树长得更快,果实也更多。
建立社区和生态:开源可以吸引开发者、研究者和企业加入 DeepSeek 的生态,形成一个活跃的社区。大家一起贡献代码、解决问题,让 DeepSeek 变得更强大。
提升品牌影响力:开源是一种很好的宣传方式。通过开源,DeepSeek 可以展示自己的技术实力,吸引更多用户和合作伙伴。
快速迭代和改进:开源后,全球的开发者都可以为 DeepSeek 贡献代码和反馈,帮助它更快地发现和修复问题,提升产品质量。
DeepSeek 开源了怎么挣钱?
虽然开源的免费的,但天底下没有免费的午餐,接受了deepseek的开源,就要依赖于中国的技术输出,就得依赖于deepseek代码更新,技术升级都掌握在咱们得手里。这东西就像抽烟、喝酒,就等你上瘾了。你就无法摆脱了。安卓就是这样,现在中国的安卓手机厂商离开安卓就得挂掉。免费的才是最贵的。deepseek一开源,其他国家同类的初创公司都活不下去了,为什么呢?你能做的比他更好吗?你怎么赚钱呢?人家是免费的,其他公司都部署了deepseek,要耗费了大量的人力物力,做好了本地化改造,谁还会再用你的?开源免费可以杀死所有的潜在对手,这是阳谋。中国人最擅长玩阳谋。
当然还是有挣钱的门道的,你看看安卓就知道了:
①企业版或高级功能:提供开源版本的基础功能,同时推出企业版或高级功能(比如更强大的模型、更快的支持服务),向企业收费。
②云服务和托管:提供基于 DeepSeek 的云服务,让企业可以直接使用 DeepSeek 的技术,而不用自己搭建和维护。比如按使用量收费的 API 服务。
③技术支持和培训:为企业提供技术支持、定制化开发和培训服务,帮助他们更好地使用 DeepSeek 的技术。
④生态合作:与其他公司合作,将 DeepSeek 的技术集成到他们的产品或服务中,从中获得分成或合作收益。
⑤硬件优化和销售:针对 DeepSeek 的技术优化硬件(如 GPU、TPU),并与硬件厂商合作销售,从中获得收益。
⑥数据和模型市场:提供高质量的数据集或预训练模型,供研究机构和企业购买使用。
(9)要不要本地部署deepseek?
由于用户量多和外国的网络攻击,deepseek在使用的时候经常会出现服务器忙,请稍后再试的情况,所以网上就出现了很多在本地部署deepseek的声音和教程。
到底要不要本地部署deepseek呢?先看一下部署本地deepseek的要求:
①deepseek1.5B(15亿参数)
最低配置:
CPU:现代多核 CPU(如 Intel i7 或 AMD Ryzen 7)。
内存:至少 16 GB RAM。
硬盘:至少 10 GB 存储空间(用于加载模型权重)。
GPU:可选,但如果有 GPU(如 NVIDIA GTX 1660 或 RTX 2060),推理速度会更快。
这个配置只能实现最低功能,你也只能玩玩。
② DeepSeek 6B(60亿参数)
GPU: 至少1张24GB显存的GPU(如NVIDIA RTX 3090或A100)10万元。
内存: 32GB以上。1000元
存储: 至少20GB的SSD空间用于模型和数据集。
其他: CUDA和cuDNN支持。(CUDA: 提供 GPU 并行计算能力。cuDNN: 优化深度学习操作。)
③DeepSeek 13B(130亿参数)
GPU: 至少1张40GB显存的GPU(如NVIDIA A100)。
内存: 64GB以上。(2500元)
存储: 至少40GB的SSD空间。
其他: CUDA和cuDNN支持。
④ DeepSeek 30B(300亿参数)
GPU: 多张40GB显存的GPU(如2-4张NVIDIA A100),需支持模型并行。
内存: 128GB以上。(6000元)
存储: 至少100GB的SSD空间。
其他: CUDA、cuDNN支持,以及NCCL用于多GPU通信。
NCCL是NVIDIA提供的一个高性能通信库,专为多GPU和多节点训练设计。
⑤ DeepSeek 60B(600亿参数)
GPU: 多张40GB显存的GPU(如4-8张NVIDIA A100),需支持模型并行。
内存: 256GB以上。(15000元)
存储: 至少200GB的SSD空间。
其他: CUDA、cuDNN支持,以及NCCL用于多GPU通信。
⑥ DeepSeek 175B(1750亿参数)
GPU: 多张40GB显存的GPU(如8-16张NVIDIA A100),需支持模型并行。
内存: 512GB以上。(40000元)
存储: 至少500GB的SSD空间。
其他: CUDA、cuDNN支持,以及NCCL用于多GPU通信。
我的笔记本电脑是32G内存,一个T的硬盘,6个G显存的GPU,core i7cpu,部署了一个1.5B的deepseek实验了一下,结果根本就跑不起来。
所以如果你是企业需要,就花点银子卖硬件去部署,如果你是个人,还是算了,服务器忙就忙吧,稍后再试呗!免费的,想啥呢!
欢迎关注留言,欢迎点赞收藏,欢迎和我讨论!