华人学生立大功,新王Mamba-3直击Transformer死穴,推理效率碾压7倍
分类:AI资讯 浏览量:31

Transformer「杀手」架构迎重磅升级
就在今天,Mamba架构的「原班人马」正式发布了最新一代开源架构——Mamba-3。
与Mamba-2相比,Mamba-3对核心SSM做了三大改动:
- 改进了离散化过程,使其能够模拟卷积;
- 将状态转移引入复数域,以优化状态追踪;
- 采用MIMO架构提升推理利用率,在保持解码速度的同时增强模型表现。
结果显示,仅用一半的内部状态大小,Mamba-3实力便与Mamba-2相当。
在15亿参数规模下,Mamba-3 MIMO版本的平均准确率达到57.6%,比Transformer高出4%。
在长序列任务上,Mamba-3的端到端延迟仅为Transformer的七分之一。
剑指Transformer死穴
2017年,Transformer架构横空出世,成为当今LLM的基石。
然而,它是一个不折不扣的「算力黑洞」,随着对话长度增加,计算需求呈平方级增长,内存占用线性飙升。
Mamba-3代表着一种范式转移:从追求训练效率,转向「推理优先」的设计。
三大核心技术
1. 指数梯形离散化:从一阶到二阶的精度跃迁,精度提升显著。
2. 复数值SSM:给模型装上「内部指南针」,补上了逻辑推理的短板。在奇偶校验任务上,Mamba-3达到100%准确率。
3. MIMO:榨干每一分闲置算力,GPU不再空转。
全面碾压
在1.5B规模下,Mamba-3 MIMO以57.6%的平均准确率排名第一,领先Transformer 4%。
端到端推理延迟上,Mamba-3比vLLM快近7倍。
华人学生立大功
这是第一个由学生主导的Mamba架构。
指导者包括Albert Gu(CMU助理教授,SSM革命奠基人)和Tri Dao(FlashAttention发明者,斯坦福博士)。
论文地址:https://arxiv.org/pdf/2603.15569
来源:36氪