知识窗|DeepSeek有多强?
1
一家人工智能初创企业浅浅扇动两下翅膀,即掀起全球科技界的一阵海啸。短短30天,中国初创企业深度求索(DeepSeek)先后发布两款性能比肩GPT-4o的大模型。2月8日,据QuestMobile发布数据显示,DeepSeek在1月28日的日活跃用户数首次超越豆包,随后在2月1日突破3000万大关,成为史上最快达成这一里程碑的应用。
2
价格感人是让DeepSeek快速出圈的第一个标签。DeepSeek-R1的API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,而OpenAI的o1模型上述三项服务的定价分别是55元、110元、438元。
3
AI投资机构Menlo Ventures对比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更长、推理性能更佳。低成本比肩OpenAI的o1模型,令硅谷的烧钱模式一时间遭到猛烈质疑。然而在过去,大模型服务是标准的一分钱一分货,想要用上更优性能的产品必须支付更高昂的费用,以覆盖整个模型训练过程中更高算力成本的支出。
4
根据DeepSeek技术报告,DeepSeek-V3模型的训练成本为557.6万美元,训练使用的是算力受限的英伟达H800 GPU集群。相比之下,同样是开源模型的Meta旗下Llama-3.1模型的训练成本超过6000万美元,而OpenAI的GPT-4o模型的训练成本为1亿美元,且使用的是性能更加优异的英伟达H100 GPU集群。
5
ChatGPT横空出世后700多天里,全球人工智能巨头不约而同走上了一条大力出奇迹的暴力美学路线,参数越炼越大,给算力、数据、能耗带来了极大压力。很长一段时间,参数几乎成为大模型厂商比拼的最大焦点。而另辟蹊径的DeepSeek恰巧处于对角线的另一端:并不盲目追求参数之大,而是选择了一条通过探索更高效训练方法以实现性能提升的小而精路线,打破了参数膨胀的惯性。
6
DeepSeek出圈,很好地证明了我们的竞争优势:通过有限资源的极致高效利用,实现以少胜多。中国与美国在AI领域的差距正在缩小。面壁智能首席科学家刘知远说。算力封锁下的有力破局,得益于DeepSeek技术架构、数据策略、工程实践三方面的关键突破。
7
技术架构:重新定义参数效率。传统大模型Transformer架构好比一条承载车辆的高速公路,当车辆(数据)数量足够多的时候,每辆车必须和前后所有车沟通完成才能继续行驶(计算),导致堵车(计算慢、能耗高)。而DeepSeek创新的架构则把一条串行的高速路,变成了一个辐射状的快递分拣中心,先把货物(数据)按类型分类打包,再分不同路线同时出发开往不同目的地,每辆货车(计算)只需选择最短路径。因此既能提高速度又能节约能耗。
8
数据策略:质量驱动的成本控制。传统的数据策略好比去农场随便采捡,常有价值不高的烂菜叶(低质量数据)。而DeepSeek创新的数据蒸馏技术,有针对性地筛选掉质量不高的烂菜叶:一方面自动识别高价值数据片段(如代码逻辑推理链),相比随机采样训练效率提升3.2倍,另一方面通过对抗训练生成合成数据,将高质量代码数据获取成本从每100个tokens的0.8元降低至0.12元。
9
工程实践:架起超级工厂流水线。大模型传统的训练方式好比手工造车,一次只能装配一台,效率低下。而DeepSeek的3D并行相当于一方面通过流水线并行把造车流程拆分为10个步骤,同时组装10辆车(数据分块处理),另一方面通过张量并行,把发动机拆成零件,分给10个工厂同时生产(模型分片计算)。
来源:新华社客户端 漫画:杨仕成