
总共效英伟达 Blackwell B200 的东说念主,都在花冤枉钱??
普林斯顿大学等聚拢团队指出,这款 GPU 尽然因为软硬件适配问题白白花消了 60% 的诡计资源。

算力花消了,咋办呢——FlashAttention-4给出了谜底。
这款专为 Blackwell 架构 GPU 量身打造的重看法算法,一举将诳骗率从行业精深的 20%-30% 推至71%。
FlashAttention-4 由 Tri Dao 领衔、联袂 Meta、Together AI 等团队共同研发。
嗯,英伟达我方也参与其中了……

Blackwell B200 有劲使不出
英伟达 Blackwell B200 行为新一代数据中心 GPU,其 tensor core 张量核默算力达到 2.25 PFLOPS,是上一代 Hopper H100 的 2 倍。
表面上能让重看法诡计的速率杀青超过式提高。
但理念念很丰润……
这款 GPU 发生了严重的偏科。
核默算力猛增的同期,时弊的配套诡计单位却踏踏实实。
其中,厚爱指数运算的 MUFU 单位轮廓量与 Hopper 架构十足一致,莫得任何提高;
分享内存的带宽也保握原样,并未跟班张量中枢同步升级。
这一硬件瞎想的不合称性,平直导致了性能瓶颈的回转。
在大模子中枢的重看法诡计负载中,蓝本的性能瓶颈矩阵乘法,如今耗时远低于援助关节,分享内存的读写操作和指数运算的耗时,反而比矩阵乘法多出 25%-60%。
算力翻倍的 Tensor Core 永迢遥于恭候景况,多数诡计资源就这样被闲置了。
于是,多数设立者破耗重金部署的 B200 GPU,因核默算力与配套单位的脱节,超六成资源被白白花消。
算力翻倍?
No!明明是有劲使不出……
FlashAttention-4 三招破解瓶颈
针对 Blackwell GPU 的偏科问题,FlashAttention-4 量身打造了三大优化政策。

第一招,多管皆下化解指数运算与内存读写繁难。
团队一方面通过软件模拟指数函数,借助多项式访佛的活动,让高速的 FMA 诡计单位参与到蓝本由 MUFU 单位厚爱的指数运算中,大幅提高指数诡计的轮廓量;
同期通过羼杂硬件诡计与软件模拟的时势,在提速的同期保证诡计精度。

另一方面推出条目性 softmax rescaling政策,仅在必要时实践 softmax 的缩放操作,平直跳过多数毋庸的诡计设施,减少非矩阵乘法的运算量。
此外,开云(中国)官网团队充分诳骗 Blackwell 架构的2-CTA MMA模式,让两个诡计单位搭档完成矩阵运算,各自仅加载一半的运算数据。
这就将分享内存的读写量平直砍半,同期还减少了后续的原子操作,从根源上缓解分享内存的带宽压力。

第二招,重构诡计活水线,杀青算力的并行最大化。
FlashAttention-4 深度适配 Blackwell 架构的全异步 MMA 操作和新增的张量内存 TMEM,重新瞎想了重看法诡计的前向和反向活水线。
让 softmax 诡计与矩阵乘法这两个中枢关节杀青十足的诡计重迭。

当硬件的张量中枢在搞定一个矩阵块时,另一部分硬件资源可同期对另一个数据块实践 softmax 诡计,幸免硬件算力的优游。
第三招,兼顾硬件迭代,为下一代 GPU 预留优化空间。
研发团队同期酌量到 Blackwell 架构的硬件升级趋势,当今 B300/GB300 GPU 的指数运算单位轮廓量已翻倍至32 ops/clock/SM。
针对这一变化,团队明确暗示,FlashAttention-4 现时的软件模拟指数运算有策画,鄙人一代硬件上会字据本体性能阐明重新量度,确保算法能握续适配硬件的迭代升级。
告别 C++,编译速率狂飙 30 倍
除了算法层的深度优化,FlashAttention-4 在设立层面也带来了变化。
与此前基于 C++ 模板设立的 FlashAttention-3 不同,FlashAttention-4 的一皆代码基于 Python 的领域专用版块 CuTe-DSL 框架编写,杀青了零 C++ 代码设立。
这一瞎想带来的是编译的效果跃升。
前向传播内核的编译时分从 FlashAttention-3 的 55 秒缩小至 2.5 秒,提速 22 倍;
反向传播的编译时分从 45 秒降至 1.4 秒,提速 32 倍,全体编译速率最高狂飙 30 倍。

在 B200 GPU 上的实测数据闪现,其前向传播算力最高达到1613 TFLOPS/s,一举杀青 71% 的表面峰值诳骗率。
对比主流的诡计框架,FlashAttention-4 的上风也比拟明显。
比英伟达官方的 cuDNN 9.13 快 1.1-1.3 倍,比常用的 Triton 框架快 2.1-2.7 倍。

且在长序列、因果掩码等大模子试验推理的中枢场景中,性能上风更为隆起。
One More Thing
论文还指出,cuDNN 从 9.13 版块运转就照旧运转反向接收了 FA4 的中枢时间。

看来,英伟达我方也忍不住抄功课了(doge)。
论文地址:https://arxiv.org/abs/2603.05451
参考相接:https://x.com/alex_prompter/status/2033885345935462853?s=20
一键三连「点赞」「转发」「防范心」
接待在辩驳区留住你的念念法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见开云体育(中国)官方网站
九游体育(NineGameSports)官网