1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 网络工具 > 正文

网络工具

DeepSeek有没有“抄袭”?软安MST为你揭秘

1987web2025-04-11网络工具10
近两年,AI大模型成为IT行业的焦点,而近两个月,DeepSeek更是引爆热议,长期占据社交媒体热榜,凭借高性能和低成本训练模式迅速吸引了全球关注,被誉为国货之光。上线短短20天,DeepS

近两年,AI大模型成为IT行业的焦点,而近两个月,DeepSeek更是引爆热议,长期占据社交媒体热榜,凭借高性能和低成本训练模式迅速吸引了全球关注,被誉为国货之光。上线短短20天,DeepSeek日活跃用户突破2215万,DAU增长最快的AI应用之一。此外,DeepSeek的开源策略也降低了技术门槛,促进了全球开发者社区的参与和创新。

然而,随着其迅速崛起,也有声音质疑DeepSeek是否存在抄袭或套壳其他厂商的大模型的嫌疑。

那么,DeepSeek的技术创新究竟如何?它真的抄袭了吗?

01判断是否抄袭,先从架构看起

了解DeepSeek的第一步,我们从官方的介绍文档开始(详见:https://github/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf)。官方文档中提供的DeepSeek网络架构图如下:

从架构来看,DeepSeek整体上采用了经典的transformer架构,但在关键细节上进行了优化与创新:

• attention层优化:整体大框架还是经典的multi-head多头注意力,但多了latent层,核心目的是把input hidden适当降维,从而减少算力消耗,这是DeepSeek的创新点之一。

• Feed-forward Network改进:原始的FFN采用的是全连接神经网络,也就是所谓的dense架构。dense架构计算非常密集,对算力要求很高,后来mixtral对dense架构做了改进,推出了MOE架构,将原本大量的参数拆解成了多个小export,推理时会选择合适的export做计算,相比dense架构节约了大量算力;由于不同的prompt会有不同的专业export计算,性能也比dense网络好很多,可谓是一举多得!

DeepSeek基于MOE架构,又做了创新改进:在router层增加了export的筛选机制,让export的选择更加平滑,防止export之间冷热不均。

综上所述,从架构来看,DeepSeek采用了经典的transformer架构,但对于该架构的细节做了较多创新和改进,并未抄袭套壳其他厂家的同类产品。

02实际网络架构与官方文档是否一致?

为了验证DeepSeek的架构是否如官方描述,我们直接在Hugging Face查看其网络结构(如下图所示):

限于篇幅,这里就不穷举transfomer block的每层细节情况了;从网络架构看,模型包含61层,255个export;如果DeepSeek有抄袭、套壳其他厂商同类产品,那么其网络结构必然和被抄袭、套壳的产品类似,所以现在最核心的问题就是:

DeepSeek的网络架构和其他厂商同类产品比,相似度是多少?有没有非常接近的?

03软安大模型安全检测系统(软安MST

为快速查明DeepSeek-V3的技术来源,我们借助软安大模型安全检测系统(软安MST)进行全面扫描。

通过模型相似度分析、溯源追踪分析、漏洞传递等技术,识别到与被测模型相似度极高的开源模型,并通过基因库中开源模型潜在的安全漏洞、恶意文件、内容安全和许可信息等,检测被测模型的应用安全和合规风险,可以精准判断是否存在抄袭或套壳行为。

MST工具的检测结果如下图所示:DeepSeek的网络架构在当前检测范围内,未发现与已知模型高度相似的情况。

除了对比网络架构的权重文件,软安MST还支持检测词表和配置框架相似度的方式检测抄袭和套壳,让真正的抄袭套壳无处遁形。以MiniCPM-Llama3-V-2_5为例,检测结果展示如下:

从上图可以看出,多个模型的权重文件、词表同MiniCPM-Llama3-V-2_5相似度达到100%,疑似直接使用了该模型的权重文件。

除了相似度,MST还支持漏洞和许可证检测,如下图所示:

通过框架安全检测、恶意文件检测、敏感信息检测等手段,检测被测件中大模型的已知安全漏洞、远程执行脚本、敏感信息等内容;通过权威的评估数据集,高效率地对大模型进行动态生成内容检测,包括数据祛毒、内容安全检测等,为AI大模型行业提供全面的安全检测方案。

未来,软安科技将继续推动大模型安全与合规检测,助力开发者打造更安全、透明的AI生态。

软安科技有限公司-软安源兮SCA