您当前所在位置: 逸达平台注册 > 逸达平台注册 >
逸达平台注册 Transformer又出新变体∞
作者:admin    发布时间: 2021-09-10 17:56

  

在以前的几年里,Transformer 几乎总揽了整个 NLP 周围,还跨界到计算机视觉等其他周围。但它也有缺点,比如不拿手处理较长上下文,由于计算复杂度会随着上下文长度的添长而添长,这使其难以有效建模永远记忆。为了缓解这一题目,人们挑出了众栽 Transformer 变体,但它们的记忆容量都是有限的,不得不屏舍较早的新闻。

访问活动地址:

访问:

访问:

访问:

访问:

在一篇论文中逸达平台注册,来自 DeepMind 等机构的钻研者挑出了一栽名为 ∞-former 的模型,它是一栽具备无限永远记忆(LTM)的 Transformer 模型,能够处理肆意长度的上下文。

Transformer又出新变体∞-former:无限永远记忆,肆意长度上下文

论文链接:https://arxiv.org/pdf/2109.00301.pdf

议决行使不息空间仔细力机制来处理永远记忆,∞-former 的仔细力复杂度能够自力于上下文长度。所以,它能够借助一个固定的算力支付建模肆意长度的上下文并保持「粘性记忆(sticky memories)」。

在一个综相符排序义务上进走的实验表清新∞-former 能够保留来自长序列的新闻。此外,钻研者还进走了说话建模的实验,包括从头开起训练一个模型以及对一个预训练的说话模型进走微调,这些实验表现了无限永远记忆的上风。

不过,和其他许众 Transformer 变体的论文相通,这篇论文的标题也引发了一些吐槽:

Transformer又出新变体∞-former:无限永远记忆,肆意长度上下文 ∞-former:一栽拥有无限记忆的 Transformer

为了使模型能够处理长程上下文,钻研者挑出用一个不息 LTM 来扩展原起 transformer,这个 LTM 存储前线步骤的输入嵌入和暗藏状态。他们还考虑了有两栽记忆的能够性:LTM 和 STM(短期记忆),相通于 transformer-XL 的记忆。∞-former 的集体架构如下图 1 所示。

Transformer又出新变体∞-former:无限永远记忆,肆意长度上下文

为了让新模型的 LTM 达到无限的水平,钻研者行使了一个不息空间仔细力框架(参见《 Sparse and Continuous Attention Mechanisms 》),它在适用于记忆的新闻单元数目(基函数)和这些单元的外示粒度之间进走了权衡。在这一框架中,输入序列被外征为一个不息信号,外示为径向基函数的一个线性组相符。这栽外征有两个隐微的上风:1)上下文能够用 N 个基函数来外示,N 幼于上下文中 token 的数目,降矮了仔细力复杂度;2)N 能够是固定的,这使得在记忆中外征无限长度的上下文成为能够(如图 2 所示),代价是亏损 resolution,但不增补其仔细力复杂度,O(L^2 + L × N),其中的 L 对答 transformer 序列长度。

Transformer又出新变体∞-former:无限永远记忆,肆意长度上下文

为了缓解亏损较早记忆 resolution 的题目。钻研者引入了「粘性记忆」的概念,将 LTM 新信号中的较大空间归于之前记忆信号的有关区域。这是一栽强制主要新闻在 LTM 中不息存在的过程,使得模型能够在不亏损有关新闻的情况下更益地捕捉长上下文,相通于大脑中的长时程添强和突触可塑性。

实验效果

为了检验∞-former 能否建模长上下文,钻研者最先针对一个综相符义务进走了实验,包括把 token 按其在一个长序列中的频率进走排序,效果如下:

Transformer又出新变体∞-former:无限永远记忆,肆意长度上下文

从图中能够望出,在序列长度为 4000 的时候,transformerXL 的实在率要略高于 compressive transformer 和 ∞-former。这是由于 transformerXL 几乎能够在记忆中保存整个完善序列。但随着序列长度的增补,transformerXL 的实在率快捷降落,compressive transformer 和 ∞-former 转折较幼。这外明∞-former 更拿手建模长序列。

接下来,他们又进走了说话建模实验,包括:1)从头训练一个模型;2)微调一个预训练说话模型。

第一个说话建模实验的效果如下外 1 所示。从中能够望出,行使永远记忆扩展模型实在会带来更益的疑心度效果,而且行使粘性记忆也能够在肯定水平上降矮疑心度。

Transformer又出新变体∞-former:无限永远记忆,肆意长度上下文

第二个说话建模实验的效果如下外 2 所示。该效果外明,议决浅易地将永远记忆增补至 GPT-2 并进走微调,模型在 Wikitext-103 和 PG19 上的疑心度都会降矮。这外明∞-former 具有众栽用途:既能够从头开起训练模型,也能够用于改进预训练模型。

Transformer又出新变体∞-former:无限永远记忆,肆意长度上下文

【编辑保举】逸达平台注册

原形外明糟糕的数据将会扼杀特出的人造智能 保险走业如何行使人造智能 无人机技术在坦然周围的行使近况 未成年人限玩网游!游玩走业会迎来怎样的地震?_IT技术周刊第690期 如何行使技术解决方案做出数据驱动的决策

Powered by 逸达平台注册 @2018 RSS地图 HTML地图