中国小伙发明的DeepSeek震惊美国白宫,这到底是个什么武器?
DeepSeek即深度求索,是由幻方量化创立的专注于人工智能大模型研发的科技公司,成立于2023年7月17日。该私营公司董事长梁文峰。广东湛江人。毕业于浙江大学。
DeepSeek即深度求索,是由幻方量化创立的专注于人工智能大模型研发的科技公司,成立于2023年7月17日。该私营公司董事长梁文峰。广东湛江人。毕业于浙江大学。
- 技术支持:有幻方量化提供强大的硬件支持,专注于开发先进的大语言模型及相关技术。
技术层面
- 架构创新:以transformer架构为基础,如DeepSeek-V3采用混合专家(MoE)架构,总参数量达到6710亿,每个token激活参数量为370亿,可降低训练和推理成本。
- 训练优化:DeepSeek-V3支持FP8训练,采用DualPipe算法,能优化内存使用,提升训练效率。多token预测训练目标提高了模型性能,并为推理加速提供了潜力。
市场层面
- 应用广泛:在智能客服领域能精准理解客户意图;在内容创作领域可快速生成高质量内容;在教育领域与科大讯飞合作推出AI数学辅导应用星火助学;在办公软件方面,WPS智能写作接入DeepSeek-Writer API提升了公文生成效率。
- 合作生态:与浪潮信息、每日互动、金山办公等多家上市公司建立了合作关系,形成了强大的产业链协同效应。
行业影响层面
- 冲击垄断:以高性价比冲击了美国大模型的垄断地位,其训练和推理成本远低于美国同类产品,如DeepSeek-V3训练成本仅557.6万美元,而OpenAI训练ChatGPT-4成本高达7800万美元甚至可能达1亿美元。
- 创新模式:打破了美国堆砌算力的模型训练模式,利用算法对数据总结和分类后再输送给大模型,实现了成本降低和模型性能提升。
—————
责编/成才;编发/地球村民网