杨植麟和梁文锋,论文撞车了

2025-02-20 10:21:34

在马斯克发布了他用20万张卡训出的Grok3的同一天,两篇与马氏大力出奇迹“相反”路线的论文也发表在了技术社区。

在这两篇论文的作者名目里,各自有一个大家熟悉的名字:

梁文锋,杨植麟。

2月18日,DeepSeek和月之暗面几乎同时发布了他们各自最新的论文,而主题直接“撞车”——都是挑战Transformer架构最核心的注意力机制,让它能更高效的处理更长的上下文。而更有趣的是,两家公司的技术派明星创始人的名字出现在各自的论文和技术报告里。

DeepSeek 发布的论文,标题名为:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

根据论文,它提出的新架构NSA(原生稀疏注意力)在基准测试中,与全注意力机制相比,准确率相同或更高;处理 64k 标记序列时,速度可提高至 11.6 倍,训练也更高效,所需算力更少;在处理超长上下文的任务(如书籍摘要、代码生成、推理任务)中表现出色。

与此前人们津津乐道的算法上的创新相比,DeepSeek这一次把手伸向了最核心的注意力机制(attention)的改造上。

Transformer是今天所有大模型繁荣的基础,但它的核心算法注意力机制依然有先天的问题:拿读书做比喻,传统的“全注意力机制”为了理解和生成,会阅读文本里的每个词,并拿它与其他所有词作比较。这样导致处理文本越长它越复杂,技术越卡,甚至崩溃。

此前学术界一直在提供各种解决的思路,NSA通过真实环境的工程优化和实验,组装出了一个由三个环节组成的可以用在训练阶段的架构方案:

它包括,1)语义压缩——不再是看每个词,而是分成一个组,也就是“块”,在保留全局语义的同时将序列长度缩减至1/k,同时引入位置编码来降低信息的损耗,进而将计算复杂度从O(n²)降为O(n²/k)。

2)动态选择——模型以某种得分判断机制,从文本中挑出最多关注的词,对它们进行细粒度的计算。这种重要性采样策略在减少75%计算量的情况下仍能保持98%的细粒度信息。

3)滑动窗口——前两者是摘要和划重点的话,滑动窗口就是查看最近的上下文信息,这样可以保持连贯性,而通过硬件级显存复用技术可以将内存访问频次降低40%。

这些思路每一个都不是DeepSeek的发明,但可以把它想象成ASML式的工作——这些技术元素已经存在,散落在各处,但工程上把它们组合在一起成为一个可以规模化的方案,新的算法架构,还没人做过。现在有人通过强大的工程能力做出来了一台“光刻机”,其他人可以用这个来在真实工业环境里训练模型。#p#分页标题#e#

而月之暗面在同天发布的论文,提出了一个在核心思想上非常一致的架构:MoBA。(MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS)

从它的名字就可以看到,它同样使用了把“词”变成块的方法。在“切块”后,MoBA 里有个像 “智能筛选员” 一样的门控网络,它负责挑选与一个“块”最相关的 Top-K 个块,只对这些选中的块计算注意力。在实际实现过程中,MoBA 还结合了 FlashAttention(能让注意力计算更高效)和 MoE(专家混合模型)的优化手段。

与NSA相比,它更强调灵活性,没有完全离开现在最主流的全注意力机制,而是设计了一套可以自由切换的方式,让这些模型可以在全注意力和稀疏注意力机制之间切换,给已有的全注意力的模型更多的适配空间。

根据论文,MoBA的计算复杂度随着上下文长度增加而优势明显。在1M token的测试中,MoBA比全注意力快了6.5倍;到10M token时,则提速16倍。而且,它已经在Kimi的产品中使用,用来处理日常用户们的超长上下文的处理需求。

杨植麟最初创

声明:投资有风险,入市须谨慎。本资讯不作为投资建议。
本文链接: - 链补手