1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

DeepSeek爆火的深层原因

1987web2025-02-27人工智能AI16

一、技术突破:算法创新

DeepSeek通过多头潜在注意力机制(MLA)和混合专家模型(DeepSeekMoE)

等创新架构,将显存占用降至传统模型的5%-13%,推理成本仅为GPT-4 Turbo的

1/70,训练成本更是OpenAI同类模型的1/10。这种高效能模式得益于稀疏化算法

和动态精度调节技术,通过仅激活相关参数和压缩数据存储,显著降低资源消耗。

DeepSeek R1的核心优势在于其独特的强化学习(Reinforcement Learning, RL)

策略。与传统依赖大量人工标注数据的监督微调(SFT)不同,DeepSeek R1完全

依靠强化学习进行训练,无需监督微调。这种方法在显著降低了对标注数据依赖的

同时,更让模型能够在自我博弈中激发推理潜能。

DeepSeek R1采用了创新的GRPO(Group Relative Policy Optimization)

算法框架,进一步优化了强化学习的训练过程,降低了计算开销,提高了训练稳定性。

二、商业模式颠覆:开源与低价策略

DeepSeek 开源了多个模型,如 DeepSeek-V3、DeepSeek-R1 等,这些模型

不仅性能卓越,而且使用 MIT 许可协议,支持免费商用、任意修改和衍生开发 。

这使得开发者可以根据自己的需求,对模型进行定制化开发,从而推动了 AI 技术

在各个领域的应用和创新。许多开发者基于 DeepSeek 的开源模型,开发出了各种

进一步拓展了 DeepSeek 的应用场景,也为全球 AI 技术的发展注入了新的活力。

在人工智能领域,训练成本一直是制约模型发展和应用的重要因素。而 DeepSeek

在成本控制方面却展现出了惊人的优势。与其他国际知名模型相比,DeepSeek 的

训练成本和使用成本都大幅降低。据公开资料显示,DeepSeek-R1 的预训练费用

仅为 557.6 万美元,而 OpenAI 的 GPT-4o 训练成本高达 7800 万美元 ,这意味着

DeepSeek-R1 以不到十分之一的成本实现了足以与 GPT-4o 较量的水平。在 API

服务定价上,DeepSeek-R1 也极具竞争力,每百万输入 tokens 只要 1 - 4 元,

每百万输出 tokens 只要 16 元 ,这个收费大约只有 OpenAI o1 运行成本的

三十分之一。