华人学生立大功,新王Mamba-3直击Transformer死穴,推理效率碾压7倍

分类:AI资讯 浏览量:31

Mamba-3

Transformer「杀手」架构迎重磅升级

就在今天,Mamba架构的「原班人马」正式发布了最新一代开源架构——Mamba-3。

与Mamba-2相比,Mamba-3对核心SSM做了三大改动:

  • 改进了离散化过程,使其能够模拟卷积;
  • 将状态转移引入复数域,以优化状态追踪;
  • 采用MIMO架构提升推理利用率,在保持解码速度的同时增强模型表现。

结果显示,仅用一半的内部状态大小,Mamba-3实力便与Mamba-2相当。

在15亿参数规模下,Mamba-3 MIMO版本的平均准确率达到57.6%,比Transformer高出4%。

在长序列任务上,Mamba-3的端到端延迟仅为Transformer的七分之一。

剑指Transformer死穴

2017年,Transformer架构横空出世,成为当今LLM的基石。

然而,它是一个不折不扣的「算力黑洞」,随着对话长度增加,计算需求呈平方级增长,内存占用线性飙升。

Mamba-3代表着一种范式转移:从追求训练效率,转向「推理优先」的设计。

三大核心技术

1. 指数梯形离散化:从一阶到二阶的精度跃迁,精度提升显著。

2. 复数值SSM:给模型装上「内部指南针」,补上了逻辑推理的短板。在奇偶校验任务上,Mamba-3达到100%准确率。

3. MIMO:榨干每一分闲置算力,GPU不再空转。

全面碾压

在1.5B规模下,Mamba-3 MIMO以57.6%的平均准确率排名第一,领先Transformer 4%。

端到端推理延迟上,Mamba-3比vLLM快近7倍。

华人学生立大功

这是第一个由学生主导的Mamba架构。

指导者包括Albert Gu(CMU助理教授,SSM革命奠基人)和Tri Dao(FlashAttention发明者,斯坦福博士)。

论文地址:https://arxiv.org/pdf/2603.15569

来源:36氪

微信微博FacebookX邮箱复制链接