DeepSeek-R1下载量破千万:不是AI的斯普特尼克时刻,是开源胜利

发布仅仅一个月左右,DeepSeek-R1成为Hugging Face平台上有史以来最受欢迎的模型,其衍生出的数千个变体模型下载量突破了1000万次!2月14日,Hugging Face联合创始人Clément Delangue在推特上激动宣布。

从Delangue分享的图表中可以明显看出,DeepSeek-R1(黄线)的下载量增长曲线几乎呈现出垂直起飞的态势,其他开源大模型,如Llama、Stable Diffusion、Mistral等增速相对缓慢。
这是继DeepSeek AI智能助手登顶美区App Store免费下载榜之后另一个振奋人心的消息。
我们来看看DeepSeek AI智能助手上架一个月后表现如何?
2月14日,它在生产工具类别下依然高居第三,排行榜的榜首被ChatGPT夺回,Google Gemini排在第四位。
在DeepSeek的评论区里,不少用户给出了高度评价:
取消GPT订阅。我喜欢能够阅读它的‘推理’过程......更不用说我在我的MacBook 上运行了14b和32b本地模型。比Apple Intelligence好多了......我认为如果DeepSeek能够用更少的钱把事情做好,苹果应该解雇负责苹果智能研究的人。
五星好评!我最近有机会使用DeepSeek,我必须说,它彻底改变了我处理数据分析和决策的方式.....真正让我印象深刻的是它提供的定制和灵活性......感谢DeepSeek创造了如此强大且用户友好的解决方案!
不过整体而言,DeepSeek的评分仅为4.1分,与两大竞争对手ChatGPT(4.9 分)和Google Gemini(4.8 分)仍有差距。
考虑到ChatGPT和Gemini经过多轮优化,UI/UX设计更为成熟,用户体验也更流畅;而DeepSeek虽然在AI模型压缩和轻量化方面表现出色,但用户在实际使用中仍可能遇到响应延迟、服务器不稳定、访问受限等问题。此外,作为一款来自中国的产品,其在美国市场的信任度相对较低。在这样的背景下,DeepSeek依然能取得当前的口碑和下载量,已相当可观。
回顾过去一个月,DeepSeek频频登上各大媒体的头版头条,成为科技公司和风投界热议的焦点。
凭借推出平价好用的大语言模型,这家总部位于杭州的公司更是引发了市场对烧钱型AI模式的深刻反思,同时也在一定程度上搅动了美股市场。
1月27日,随着其AI智能助手登顶美区App Store免费下载榜,纳斯达克指数暴跌超3%,一度触及19204.95点;标普500指数则下跌1.46%,最低降至5962.92点。
随着FOMO(Fear of Missing Out)情绪的消退,目前两大指数均已有所修复,在上周五,纳指重新站上20000点,标普500指数则回升至6,114.63点。
DeepSeek 为什么震撼了美国?
先上结论,主要有四个点对美国产生了极大的震撼:
1.极低的训练成本:DeepSeek团队声称仅花费了600万美元就训练出了 R1,而GPT-4的训练成本预计高达数亿美元。
2.中国AI研究实力的证明:美国一直在限制对中国的AI芯片出口(如 Nvidia GPU),但DeepSeek仍能取得突破,说明芯片封锁并未阻止中国AI的发展。
3.开源且提供极其宽松的许可:DeepSeek-R1采用MIT许可证,比Meta的 Llama 还要开放,任何人都可以免费使用、修改和二次开发,甚至商用化。
4.推理过程(reasoning traces)的公开:这点很重要。以往,OpenAI在发布A1时并没有公开推理过程,而推理过程的公开可以帮助小模型快速进行知识蒸馏(distillation),让小模型的训练成本更低、速度更快。
其实,DeepSeek在爆火之前,英文技术社区已经对它进行了一段时间的关注了。
在HackerNews上,最早的讨论可追溯至 2024 年 9 月,当时一名用户表示 DeepSeek的性能看起来不错,但对用户条款、隐私政策等存疑,而其他用户则回复道:这是个开源模型,便宜又好用,不用太担心。
2024年10月发布的一篇名为DeepSeek v2.5 – 一个和GPT-4相当的开源大语言模型,但价格便宜95% 的帖子也引发了热烈讨论,足见许多开发者都在寻找更经济实用的大语言模型。但大部分评论者认为,DeepSeek v2.5在功能完整度和性能上并不能完全替代GPT-4,更多是以极具优势的价格覆盖了基本需求,帮助开发者大幅降低日常研发和调用成本。
10月到12月之间,我们可以看到依旧有不少讨论DeepSeek的帖子。
接下来的剧情就是,1月20日,DeepSeek正式推出了R-1。这是一个在数学、代码生成和自然语言推理等任务上,可与OpenAI的o1模型相媲美,但对计算资源消耗却远低于市面主流大模型的全新大语言模型。随着DeepSeek的AI智能助手冲上美区苹果免费应用排行榜第一,美国科技公司的股价受到重创。
在匿名职场社交平台Blind上,一位Meta员工爆料,DeepSeek对Meta GenAI业务部门造成了巨大冲击:
管理层担心如何证明GenAI业务部门的巨额成本是合理的。当GenAI业务部门的每一位领导的收入都超过完全培训DeepSeek v3的成本时,他们将如何面对更高的领导层?何况我们有几十位这样的领导。Deepseek-R1让事情变得更加可怕。我不能透露机密信息,但它很快就会公开。GenAI本应是一个专注于工程的小型组织,但由于一群人想加入影响力争夺战并人为地增加组织的招聘人数,每个人都输了。
一名谷歌员工在回复中也给出了最受支持的观点:
DeepSeek的做法的确疯狂。但这对整个行业是好事,我们正在实时见证公开竞争如何有效地推动创新。
尽管不确定Meta GenAI部门是否真如帖子所言那样焦灼,但可以肯定的是,OpenAI、谷歌、Anthropic等AI巨头正在切实感受到来自DeepSeek的压力,并纷纷加快更新产品以巩固自身优势。
1月31日,OpenAI宣布推出全新推理模型o3-mini,并首次向免费用户开放。作为OpenAI推理系列中的最新产品,o3-mini相较o1价格便宜了93%,其中输入价格为1.10美元/百万Tokens,输出价格为4.40美元/百万Tokens。
2月5日,谷歌高调更新了Gemini 2.0全家桶,包括面向通用场景的Gemini 2.0 Flash、性能更强的Gemini 2.0 Pro,以及性价比最高的Gemini 2.0 Flash-Lite。官方信息显示,Gemini 2.0 Flash-Lite与1.5 Flash在速度和成本上持平,最大的亮点是高性价比,其输入价格为0.075美元/百万Tokens,输出价格为0.30美元/百万Tokens。
与DeepSeek-R1的输入/输出价格(分别为0.14美元和2.19美元/百万Tokens)相比,o3-mini依然偏贵;而Gemini 2.0 Flash-Lite虽然成本更低,但在需要更强算力或更复杂推理的场景中,表现相对逊色。
面对这样便宜大碗的模型,开发者们怎么能不动心?
Perplexity率先接入了DeepSeek,微软CEO萨提亚·纳德拉也在1月29日的财报电话会议上宣布:DeepSeek-R1可通过Azure AI Foundry和GitHub获取。随后,AWS、英伟达、AMD、Intel等云服务及芯片巨头纷纷快速跟进,争相搭上DeepSeek的快车,希望借其更低成本、更高效的推理能力来增强各自的AI生态,以及更好地满足开发者需求。
在错综复杂的地缘政治环境下,中美在AI领域常因政策与监管产生分歧。然而,DeepSeek采用开源和宽松许可模式发布其模型,让更多研究者能够跨越国别和制度鸿沟,进行深度探索与验证。这种社区共建的机制,不仅推动了技术的快速迭代与传播,也在很大程度上弱化了地缘竞争中的不信任感,为AI创新建立了一个相对开放的公共平台,给业界带来了强烈的震撼。
这是AI的斯普特尼克时刻?还是一份礼物?
1957 年,苏联成功发射人类历史上的第一颗人造卫星——斯普特尼克(Sputnik),美国人顿觉领先地位被撼动,不得不全力投入到一场空前的太空竞赛中。
今天,美国主流媒体也将中国团队推出的DeepSeek-R1视作一种AI的斯普特尼克时刻,因为它同样触动了科技界的神经,引发了类似当年的危机感与紧迫感。甚至美国总统唐纳德·特朗普也宣称这是对我们AI行业的警钟,我们需要全神贯注于竞争。
在美国风险投资机构Andreessen Horowitz(a16z)的合伙人Martin Casado看来,这场AI竞赛和当年的太空竞赛没什么两样,美国必须赢。
他在近期的播客中谈到,DeepSeek之所以能在短时间内获得巨大关注,一是因为它开源程度极高,采用了极其宽松的许可证;二是公开了推理过程,让小模型能够快速进行知识蒸馏,进一步降低训练成本与加快推理速度。与之形成鲜明对比的是,为了巩固自己在行业里的领先地位,冠着Open名号的OpenAI在发布o1时并没有公开任何推理细节。
(Martin Casado在播客里)
Casado是工程师出身,在a16z专注于企业软件、网络安全、云计算和人工智能等领域的投资。
他还坦言,美国近年来的AI政策是失败的——高密度、高强度的出口管制,试图在芯片和软件层面封锁中国的AI发展,这样的措施没有达到预期效果,DeepSeek的崛起就是最好的证明。
我们需要从一个更广阔的视角来看待这个问题——中国确实有顶尖的AI研究团队。DeepSeek其实已经发布过多个业界领先(SOTA)的模型,比如V3,可能比R1更具技术含量。类似于GPT-4,它们也是基于链式思维(Chain of Thought, CoT)进行推理的,而DeepSeek早就在这方面有所研究。Casado说到。
当年的斯普特尼克让美国重新思考自身科技与教育体系,同时加速了对太空探索的投入。如今,面对DeepSeek的崛起,更值得反思的是,在打着自由市场旗号的美国,OpenAI、谷歌、Anthropic 等 AI 巨头大多优先考虑专有模型,而中国团队则通过开源方式实现了突破性进展,进一步降低最前沿 AI 的门槛和成本,构建起蓬勃发展的AI生态系统。
对大公司而言,私有化模型有助于把控知识产权、强化自身在市场中的地位。然而,这种高度封闭的发展方式在高速演进的AI领域里,越来越难以满足公众对技术开放和透明度的期待,也可能成为创新与合作的桎梏。
在政府层面,白宫对AI领域实施的算力限制和代码封锁等举措,不但没有遏制中国的进步,反而在某种程度上束缚了美国自身的领先优势。
a16z的另一位合伙人Alex Rampell更直截了当地指出,拜登政府担心如果美国的AI开源,中国会复制。但DeepSeek反其道而行之——现在是中国发布了开源AI,而美国的公司都想使用它或复刻它,因为它的性能实在太强了。
开源曾是美国高科技领域里最引以为傲的杀手锏,早年的互联网协议、操作系统、数据库等关键技术,正是在广泛开放的环境下得以快速迭代,助力美国牢牢把握信息革命的制高点。然而,近几年由于对知识产权与商业收益的高度关注,再加上对国家安全和经济制裁层面的考量,一些科技巨头选择更加封闭的研发模式,缩减了行业合作与创新的空间。
Rampell并不认为DeepSeek是新的斯普特尼克时刻,而是给美国人民的礼物:它让骄傲的美国不得不正视全球AI竞争的现状,加速在技术、人才和资金上的投入。
在这样的大背景下,越来越多的科技人呼吁,美国的AI政策必须做出深层调整。继续靠封锁和管控来保持优势,只会失去推动全行业整体跃升的机会。正如Meta首席人工智能科学家 Yann LeCun 在LinkedIn上所言:对于那些看到DeepSeek表现、认为这是中国在人工智能领域超越美国的人来说,你们理解错了。正确的解读是开源模型正在超越专有模型。
随着AI竞争逐渐从单纯追求更大规模、更多参数和更强算力,转向注重应用与生态的深度整合,谁能让大模型在不同行业场景中快速落地,并构建强大的协同网络,谁就能在这场竞赛中率先胜出。
英伟达CEO黄仁勋就曾强调,模型规模本身并不代表市场价值,真正能让技术落地的,取决于能否与现实需求无缝对接;斯坦福大学教授吴恩达(Andrew Ng)也在演讲中反复提到:解决实际问题、为用户创造价值,才是所有大模型发展的根本目标。从医疗、金融到零售,每个行业都有不同的业务痛点和法规要求,促使研发团队必须进行针对性的模型裁剪与定制。
在这种趋势下,像DeepSeek这样依托开放、弹性生态系统的团队,不仅能为行业提供更低门槛的成长路线,还能不断吸纳开发者与合作伙伴,让AI技术在更多应用场景释放潜力,保持可持续发展。
OpenAI CEO Sam Altman也开始反思他的策略。在o3-mini发布会后,这位硅谷天才创业者与几位高管在Reddit上回答网友提问,在问及是否会公开部分大模型权重时,Altman坦言:我个人认为,我们在开源策略上可能走错了方向,需要探索一种全新的开放模式。不过,并非所有OpenAI成员都认同这一观点,而且目前这也并非我们的最高优先级。
或许DeepSeek不仅是开源大模型的一次重大胜利,更是一份送给世界的礼物,将为整个行业树立了全新的标杆。