最近,MIT英伟达等研究人员发明的「径向注意力」技术,不仅让长视频生成速度提升3.7倍,还能把训练成本砍掉4.4倍。
在扩散模型的加持下,高质量视频生成逐渐从科幻变成现实。
但视频的时间维度给算力增加了不少负担,导致训练和推理长视频的成本飙升。

生成10秒视频就要烧掉数千元算力费用,价格之高令人望而却步。
对此,团队从热力学借了点灵感:「没有任何传播是无损的;信号、影响、注意力都会随着距离衰减。」
他们发现视频扩散模型里的注意力分数同样遵循这个规律——softmax后的权重随着token间的空间和时间距离递减。
这种「时空能量衰减」现象与自然界信号的物理衰减不谋而合。
这会不会就是视频生成降本增效的关键?
为进一步证实这种猜想,团队提出了「径向注意力」(Radial Attention):一种计算复杂度仅为O(nlog n)的稀疏注意力机制。
区别于之前SVG每次推理对空间/时间注意力进行动态选择,径向注意力用的是一种统一且高效的静态掩码。
这种掩码把空间和时间注意力合二为一,带来了更灵活、更快的长视频生成体验。
![]()
而且,这种简洁的静态注意力掩码让每个token只关注附近空间的邻居。随着时间距离的拉长,注意力窗口逐渐收缩。
相比传统的O (n²)密集注意力,径向注意力不仅大幅提升了计算效率,还比线性注意力拥有更强的表达能力。
在这项注意力机制创新的加持下,高质量视频生成变得更快、更长。
训练和推理的资源消耗极大地降低,为视频扩散模型打开了新的可能。