1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

一文读懂DeepSeek(深度求索):有限计算资源下的顶尖大模型

1987web2025-02-23人工智能AI5
DeepSeek(深度求索)引起硅谷恐慌,性能超越了美国的顶尖模型,且研发成本更低,使用的芯片性能也较弱。甚至有人猜测DeepSeek(深度求索)模型对美国股市都构成了威胁。中国AI公司证明

DeepSeek(深度求索)引起硅谷恐慌,性能超越了美国的顶尖模型,且研发成本更低,使用的芯片性能也较弱。甚至有人猜测DeepSeek(深度求索)模型对美国股市都构成了威胁。中国AI公司证明了用有限的计算资源,足以做出顶尖水平的模型。

这一开源模式有望推动AI从寡头游戏转向全民创新,重塑产业格局,促进更公平、高效、可持续的AI发展路径。

DeepSeek创始人梁文锋提及了团队的研发思路:如果目标是做应用,那沿用LLaMA模型(LLaMA,是元宇宙平台公司,即Meta公开发布的产品)短平快上产品也是合理的,但我们的目的地是AGI(通用人工智能),这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。

据TheInformation网站,脸书母公司Meta成立四个专门研究小组来研究量化巨头幻方量化旗下的国产大模型DeepSeek(深度求索)的工作原理,并基于此来改进旗下大模型Llama。其中两个小组正在试图了解幻方量化如何降低训练和运行DeepSeek(深度求索)的成本;第三个研究小组则正在研究幻方量化可能使用了哪些数据来训练其模型;第四个小组正在考虑基于DeepSeek(深度求索)模型属性重构Meta模型的新技术。

DeepSeek(深度求索)-R1在后训练阶段大规模使用强化学习技术,在仅有极少标注数据的情况下,极大提升模型推理能力。DeepSeek(深度求索)-R1每百万输入tokens1元(缓存命中)/4元(缓存未命中),每百万输出tokens16元,大约是OpenAIo1运行成本的三十分之一。DeepSeek-R1遵循MITLicense开源,支持模型蒸馏,其API服务对输入token收取0.55美元/百万、输出token收取2.19美元/百万,而OpenAI-o1-1217的收费则分别为15美元/百万和60美元/百万,价格相差近30倍,同期OpenAI宣布旗下o3mini模型将向用户免费(据IT之家)。

该模型在数学、编程和推理等多个任务上表现优秀。据腾讯新闻,DeepSeek发布全新推理大模型DeepSeek-R1正式版,并采用MIT许可协议,支持免费商用、允许任意修改和衍生开发、可支持进行二次蒸馏训练等。DeepSeek-R1在数学、编程和推理等多个任务上,达到了与OpenAI-o1-1217模型相当的表现。

作为开源大模型,DeepSeek(深度求索):性能国际一流,技术力强,大幅节本三个特点。

《黑神话悟空》之父,游戏科学CEO冯骥如此点评:

年前还是认真推下DeepSeek(深度求索)吧。

V3已经用了一个月,但R1仅仅用了5天,不得不来发这条微博。

先讲一句暴论:DeepSeek(深度求索),可能是个国运级别的科技成果。

为了讲清楚这个成果有多惊人,我打个比方:如果有一个AI大模型做到了以下的任何一条,都是超级了不起的突破——

1、强大。比肩O1的推理能力,暂时没有之一

2、便宜。参数少,训练开销与使用费用小了一个数量级

3、开源。任何人均可自行下载与部署,提供论文详细说明训练步骤与窍门,甚至提供了可以运行在手机上的mini模型。

4、免费。官方目前提供的服务完全免费,任何人随时随地可用

5、联网。暂时唯一支持联网搜索的推理模型(o1还不支持)

6、本土。深度求索是一家很小规模的年轻中国公司,由没有海外经历甚至没有资深从业经验的本土团队开发完成

上面的六条,DeepSeek(深度求索)全部、同时做到了。实在太6了,6到不真实。如果这都不值得欢呼,还有什么值得欢呼?希望DeepSeek(深度求索)R1会让你对当前最先进的AI祛魅,让AI逐渐变成你生活中的水和电。太幸运了!太开心了!这样震撼的突破,来自一个纯粹的中国公司。知识与信息平权,至此又往前迈出了坚实的一步。

在各个大模型厂商早已开启买量,进行广告投放品牌营销时,该公司至今尚未有公关团队。除了技术实力本身,团队的创新理念和人才队伍,是业内人士认为DeeSeek能在群狼环伺的AI界杀出重围的主要原因。

公司的理念:投身于探索AGI的本质,不做中庸的事,带着好奇心,用最长期的眼光去回答最大的问题。

不拘一格降人才。目前的DeepSeek(深度求索)团队,集结了一批国内名校毕业的高密度年轻人才,其中不乏应届生、实习生。工作经验不是衡量人才的唯一标准,公司着重考察人选素质和对大模型的热爱。

拒接躺平,快速试错。只要员工的技术提案有潜力,他们所需算力和资源都能得到充分满足。在大模型领域,算力是稀缺的资源,DeepSeek(深度求索)则是万卡GPU训练集群,无需申请,不限使用。

2023年4月,幻方量化宣布成立新组织,集中资源和力量,探索AGI的本质。当时幻方就表示,多年以来,公司坚持把营收的大部分投入人工智能领域,建设领先的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘。

DeepSeek(深度求索)是一家专注于人工智能领域的创新型科技公司,2023年7月17日成立。由知名量化资管巨头幻方量化创立,作为大厂外唯一一家储备万张A100芯片的公司,幻方量化为DeepSeek(深度求索)的技术研发提供了强大的硬件支持。

2023年11月29日:推出参数规模达670亿的通用大模型DeepSeek(深度求索)LLM,包括7B和67B的base及chat版本。

2024年5月7日:发布第二代开源混合专家(MoE)模型DeepSeek(深度求索)-V2,总参数达2360亿,推理成本降至每百万token仅1元人民币。

2024年12月26日:发布DeepSeek(深度求索)-V3,总参数达6710亿,采用创新的MoE架构和FP8混合精度训练,训练成本仅为557.6万美元。

2025年1月20日:发布新一代推理模型DeepSeek(深度求索)-R1,性能与OpenAI的o1正式版持平,并开源。DeepSeek(深度求索)开源一系列新模型DeepSeek(深度求索)-R1-Zero和DeepSeek(深度求索)-R1,并且提供1.5B到70B大小的开源蒸馏模型。同日国内某大模型发布的推理替代思考的模型,整体能力落后DeepSeek(深度求索)-R1。。DeepSeek-R1的API现已上线,用户可通过设置`model=deepseek-reasoner`进行调用。为了促进开源和技术共享,DeepSeek采用MITLicense,允许用户进行模型蒸馏并进行商用。

2025年1月26日:DeepSeek(深度求索)登顶美区AppStore免费榜第六,超越GoogleGemini和MicrosoftCopilot等产品。

DeepSeek(深度求索)主要押注了三个方向:一是数学和代码,二是多模态,三是自然语言本身。DeepSeek(深度求索)选择回到模型架构底层去创新和优化。

DeepSeek(深度求索)原理

DeepSeek(深度求索)的模型设计和训练过程采用了多项创新技术,这些技术使其在性能和效率上取得了显著的突破。

混合专家架构(MoE):DeepSeek(深度求索)-V3采用了混合专家架构,总参数达6710亿,但每个输入只激活370亿参数。这种选择性激活的方式大大降低了计算成本,同时保持了高性能。DeepSeek(深度求索)-V3的MoE架构通过动态冗余策略,在推理和训练过程中保持最佳的负载平衡。

多头潜在注意力(MLA):DeepSeek(深度求索)-V3引入了多头潜在注意力机制,通过低秩联合压缩机制,将Key-Value矩阵压缩为低维潜在向量,显著减少内存占用。

无辅助损失负载均衡:DeepSeek(深度求索)-V3采用了无辅助损失负载均衡策略,最小化了因鼓励负载均衡而导致的性能下降。

多Token预测(MTP):DeepSeek(深度求索)-V3采用了多Token预测目标,证明其对模型性能有益,并可用于推理加速。

FP8混合精度训练:DeepSeek(深度求索)-V3设计了FP8混合精度训练框架,首次验证了在极大规模模型上进行FP8训练的可行性和有效性。

知识蒸馏:DeepSeek(深度求索)-R1通过知识蒸馏,将长链推理(CoT)模型的推理能力蒸馏到标准LLM中,显著提升了推理性能。

DeepSeek(深度求索)的产品性能对比:

DeepSeek(深度求索)-V3:在聊天机器人竞技场(ChatbotArena)上排名第七,在开源模型中排名第一,是全球前十中性价比最高的模型。

DeepSeek(深度求索)-R1:在ChatbotArena综合榜单上排名第三,与OpenAI的o1并列。

DeepSeek团队采用了一种新的训练方式,即通过多轮强化学习代替传统的监督微调步骤,实现了模型的自我进化,无需依赖人类标注数据。

DeepSeek团队革新了传统的训练方式,尝试抛弃监督微调步骤,转而通过多轮强化学习实现模型的迭代优化,反映了纯RL路线的有效性。DeepSeek-R1-Zero通过不依赖监督微调(SFT),接进行大规模强化学习同样能够显著提升模型的推理能力,这一结果为R1的训练提供了关键启发。

DeepSeek-R1的最终版本在ZeroRL实验结果的基础上进行了优化,加入少量的冷启动数据后,推理性能进一步增强。

这一创新思路与AlphaGoZero的强化学习方法类似,使得模型能够在无需依赖人类标注数据的情况下进行自我进化,为进一步增强预训练后的大模型的特定能力提供了一种新的规模化增长路径,是ScalingLaw在Post-training阶段的延续。

这种创新模式也为国产AI大模型在后训练阶段提供了一种新的技术选择,有望进一步缩短国产厂商与国际领先厂商在AI大模型领域的技术差距。

自然语言处理领域:可用于机器翻译,实现不同语言间准确流畅的文本转换;能进行文本摘要,快速提取文本关键信息;还可做情感分析,判断文本表达的情感倾向。

代码辅助领域:为开发者提供代码补全功能,提高编码效率;能帮助进行代码调试,快速定位和解决代码中的问题;还可给出优化建议,提升代码质量。

教育辅导领域:作为智能辅导系统,帮助学生理解复杂概念,解答学习中的疑问;能根据学生学习情况提供个性化学习建议和辅导。

客户服务领域:在聊天机器人中应用,可快速准确地回答客户问题,提供高效的客户支持,提升客户满意度。

医疗健康领域:辅助医疗诊断,帮助医生分析症状和病历;可用于患者教育,向患者解释病情和治疗方案;还能提供健康咨询服务,为人们提供健康生活建议。

金融科技领域:进行智能风险评估,为金融机构提供风险预测;提供自动化交易策略,辅助金融交易决策;还能为用户提供个性化投资建议。

智能制造领域:用于优化生产流程,提高生产效率和质量;可预测设备维护需求,减少设备故障和停机时间。

新模型实际表现优秀,训练成本更低,国产优质模型的开源模式有望推动AI从寡头游戏转向全民创新,长期来看可能重塑产业格局,促进更公平、高效、可持续的AI发展路径。

1)国产化:金山办公、海光信息、浪潮信息、中国软件、达梦数据、太极股份、中孚信息、华东重机、神州数码、紫光股份、中科曙光等;

2)行业细分领域:慧翰股份、新大陆、卫宁健康、中控技术、科大讯飞、广联达、用友网络等;

3)证券IT:恒生电子、顶点软件、指南针、同花顺等。

参考资料:

20250126-广发证券-AI:Open AI发布Operater,AI智能体进入新阶段

20250126-兴业证券-AI:算力开支加速扩张,AI Agent迎爆发元年

投资顾问:王德慧(登记编号:A0740621120003),本报告中的信息或意见不构成交易品种的买卖指令或买卖出价,投资者应自主进行投资决策,据此做出的任何投资决策与本公司或作者无关,自行承担风险,本公司和作者不因此承担任何法律责任。