开云·Kaiyun(中国)官方网站-科技股份有限公司

新闻资讯
你的位置:开云·Kaiyun(中国)官方网站-科技股份有限公司 > 新闻资讯 > www.kaiyun.com但与RoPE位置编码不兼容-开云·Kaiyun(中国)官方网站-科技股份有限公司

www.kaiyun.com但与RoPE位置编码不兼容-开云·Kaiyun(中国)官方网站-科技股份有限公司

2026-03-19 17:42    点击次数:132

www.kaiyun.com但与RoPE位置编码不兼容-开云·Kaiyun(中国)官方网站-科技股份有限公司

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

新式看护力机制TPA,姚期智院士团队打造。

TPA对每个token作念动态的张量领会,不存储圆善的静态KV,而是保留领会的版块,内存占用省俭90%(粗略更多),而不会死字性能。

论文中还诠释了流行的MHA、MQA、GQA王人是TPA的异常情况,用一个框架妥洽了当代看护力策画。

用此步调查验的新模子T6,代码已在GitHub开源。

论文发布后,有创业者暗示,终于不必付那么多钱给云厂商了。

也有商议者以为,论文中的现实看起来很有但愿,不外现实中的模子范围有点小,但愿看到更多为止。

动态张量领会,无缝集成RoPE

尽管现存的看护力机制在深切任务中获得了可以的成果,但它已经有计较和内存支拨大的颓势。

DeepSeek-v2中坑诰的MLA压缩了KV缓存,但与RoPE位置编码不兼容,每个看护力头需要独特的位置编码参数。

为了克服这些步调的局限性,团队坑诰张量积看护力(TPA,Tensor Product Attention)。

新步调在看护力计较经过中对QKV作念领会。

与LoRA系列低秩领会步调比较,TPA将QKV诀别构造为与高下文关联的领会张量,完了动态适合。

通过只缓存领会后的秩,建树稳健的参数可使内存占用缩短90%或以上。

关于流行的RoPE位置编码,TPA可以与之无缝集成,完了以较低的资本旋转领会KV,无需进行复杂的调度。

在现实中,使用FineWeb-Edu 100B数据集查验模子,TPA与其他看护力策画比较深切保抓较低的困惑度。

在ARC、BoolQ、HellaSwag和MMLU等基准测试中测试了零样本和少样人道能。TPA和TPA-KVonly在大无数任务中王人优于或匹配统统基线。

论文由清华&上海期能力议员团队、UCLA顾全全团队谄媚,共兼并动作清华博士生张伊凡与姚班学友、现UCLA博士生刘益枫。

此外还有来自心动收集Taptap的Qin Zhen。

论文地址:https://arxiv.org/abs/2501.06425开源代码:https://github.com/tensorgi/T6

参考连合:[1]https://x.com/yifan_zhang_/status/1879049477681741896