DeepSeek「盗窃」OpenAI?更像是贼喊捉贼

2025-02-12 13:15:26

作者:邓咏仪,智能涌现

图片来源:由无界AI生成

2025年春节期间,最红的不止是哪吒2,还有一个名为DeepSeek的应用——这个励志故事被传颂多次:1月20日,位于杭州的AI初创公司DeepSeek(深度求索)发布了新模型R1,对标OpenAI如今最强的推理模型o1,真正意义上做到了引爆全球。

上线仅仅一周,DeepSeek App已经斩获超2000万的下载量,在超过140个国家排名第一。其增长速度超越了2022年时上线的ChatGPT,目前已是后者的约20%。

火到什么程度?截至2月8日,DeepSeek的用户数已经超过1亿,覆盖的人群远不止AI极客,而是已经从中国,延伸到全球。从老人、儿童到脱口秀演员、政客,人人都在谈论DeepSeek。

直到现在,DeepSeek带来的震动还在持续。过去两周,DeepSeek走马灯似地演完了TikTok的剧本——爆火和高速增长,打败美国诸多对手,甚至让DeepSeek迅速站到地缘政治的悬崖上:美国和欧洲开始讨论”影响国家安全”,许多地区迅速颁发禁止下载或安装的命令。

A16Z合伙人Marc Andreessen甚至惊叹:DeepSeek的出现,是又一个“斯普尼克时刻”(Sputnik Moment)。

(一个源于冷战时期的说法,苏联在1957年成功发射全球首颗人造卫星“斯普特尼克一号”,引起了美国社会的恐慌,意识到自身地位受到挑战,技术优势可能被倾覆)

但人红是非多,在技术圈内,DeepSeek同样也陷入“蒸馏”、“盗窃数据”等等争议中。

截至目前,DeepSeek没有任何公开回应,这些争论也随之落入两个极端:狂热的追捧者,将DeepSeek-R1上升至“国运级”创新;也有科技从业者,对DeepSeek的超低训练成本、以及蒸馏训练方式等等提出质疑,认为这些创新被过于追捧。

Deepseek“盗窃”OpenAI?更像是贼喊捉贼

几乎从DeepSeek爆火开始,包括OpenAI、微软等硅谷AI巨头就相继公开发声,控诉重点都落在DeepSeek的数据上。美国政府AI和加密主管大卫·萨克斯也公开表示,DeepSeek通过一种称为蒸馏的技术,“吸取”ChatGPT的知识。

OpenAI在英国《金融时报》的报道中表示,已经发现了DeepSeek“蒸馏”ChatGPT的迹象,并表示这违反了OpenAI的模型使用条约。不过,OpenAI并没有给出具体的证据。

事实上,这是一则站不住脚的指控。

蒸馏是正常的大模型训练技术手段。这常发生在模型的训练阶段——通过使用更大、更强大的模型(教师模型)的输出,来让较小模型(学生模型)学习更好的性能。在特定任务上,较小的模型能够以更低的成本,获得类似的结果。#p#分页标题#e#

蒸馏也并不是抄袭。用通俗的话解释,蒸馏更像是让一位老师刷完所有难题,整理出完美的解题笔记——这本笔记里不是仅有答案,而是写着各种最优解法;普通学生(小模型)只需要直接学习这些笔记,然后输出自己的答案,对照笔记看看是否符合老师笔记中的阶梯思路。

而DeepSeek最突出的贡献在于,在这个过程中更多地使用了无监督学习——就是让机器自我反馈,减少人类反馈(RLHF)。最直接的结果就是,模型的训练成本大大下降——这也是不少质疑声的由来。

DeepSeek-V3论文曾提及其V3模型的具体训练集群规模(2048块H800芯片)。不少人按市场价格估算,这个金额大约在550万美元左右,相当于Meta、Google等模型训练成本的数十分之一。

但需要注意的是,DeepSeek早已在论文中注明,这仅是最后一次训练的单次运行成本,没有将前期的设备、人员、训练耗损包括在内。

在AI领域,蒸馏不也是新鲜事,不少模型厂商都曾披露过自家的蒸馏工作。比如,Meta就曾公布过自家模型是怎么蒸馏出来的——Llama 2就用更大、更聪明的模型生成包含思考过程、思考方法的数据,然后放到自家更小规模的推理模型中,进行微调。

△来源:Meta FAIR

但蒸馏也有其弊端。

一位大厂AI应用从业者告诉《智能涌现》,蒸馏

声明:投资有风险,入市须谨慎。本资讯不作为投资建议。
本文链接: - 链补手