表现出对其训练刻理解,而这,恰恰是他们所需要的。 . 层 受此启发,研究人员设计了一类新的序列建模层,其中隐藏状态是模型,更新规则是自监督学习的一个步骤。 由于更新测试序列上隐藏状态的过程,相当于在测试时训练模型,因此此类新层称为测试时训练层。 研究人员引入两个简单的实例:-Lir和-L,其中隐藏状态分别是线性模型和两层L。层可以集成到任何网络架构中并进行端到端优化,类似于R层和自注意力。 . 实际运行时间 层在FL方面已经非常高效,研究人员则更进一步地提出了两项创新,使其在实际运行时间内也能保持高效。 首先,与在常规训练中对ii-bh序列采取梯度步进以实现更好的并行性类似,他们也在中使用
了ii-bh的k。 其次,研究人员为每个 ii-bh内的操作开发了一种
对偶形式,以更好地利用 手机号码数据 现代G和。这种对偶形式的输出与原始实现相当,但训练速度却快了5倍以上。 正如图所示,-Lir在8k上下文中比rfrr更快,并且与b相当。 rfrr杀手 如图所示,所有的序列建模层,都可以从将历史上下文存储到隐藏状态的角度来看待。 比如,R层如L、RWK和b层将上下文压缩成一个固定大小的状态,这个状态随时间变化。 这种压缩带来了两种结果:优势是处理效率高,因为每个k的处理时间是恒定的。劣势是在处理长上下文时,R性能受限于隐藏状态的「表达能力」。 自注意力机制(lf-i)也可以从如上角度来理解。 不同之处在于,它的隐藏状态,通常称为键值(K)缓存是一个随增长的线性li。 它可以存储所有的上下文,并
且不会进行压缩,具有很好的表达能力,不过其处理时
间随上下文长度线性增长。 因此,为了在 如何开展网上业务 长上下文中既保持效率,又具有表达能力,需要一个更好的“压缩启发式”(ri hrii)方法。 具体来说,就需要将数百万个k压缩成一个能有效捕捉其底层结构和关系的隐藏状态。 . 隐藏状态 研究人员的关键思想是,使用自监督学习来将历史上下文,…,压缩成一个隐藏状态。 方法是将上下文视为一个无标签数据集,而将状态视为一个模型。 具体来说,隐藏状态现在等同于一个模型f的权重W,这个模型f可以是线性模型、小型神经网络或其他任何形式。输出规则简单地表示为: 直观来讲,输出k就是由更新后权重W的模型f对所做的预测。更新规则是在某个自监督损失ℓ上进行的一步梯度下降: 其中学习率为η。从压缩的角度来看,每种启发式方法都需要决定记住/忘记哪些输入。W会记住那些产生大梯度的输入直观地说,就是那些使W学习很多的输入。 ℓ的一种选择是重构本身。为了使学习问题变得非平凡,作者首先将
处理成一个被破坏的输入x,然后优化: 类似于去噪自编码
器,f需要发现各维度之间的相关性,以便从 阿联酋手机号码 部分信息x中重构出。 如图5所示,梯度下降能够减少ℓ,但无法将其降至零。 与其他R层和自注意力机制一样,研究人员将输入序列,…,映射到输出序列Z,…,Z的算法可以被编程到序列建模层的前向传播中,使用上述的隐藏状态、更新规则和输出规则。 即使在测试时,新层仍然为每个输入序列训练一个不同的权重序列W,…,W。 因此,研究人员将其称之为测试-时间训练层。 . 使用层训练神经网络 层的前向传播,也有相应的后向传播。 层与R层、自注意力机制有着相同的接口,因此可以在任何更大的神经网络架构中替换它们。 值得一提的是,训练带有层神经网络的方式,与训练任何其他rfrr模型相同。 可以使用相同的数据、方法和目标(如下一个k预测)来优化网络其余部分的参数。 在此,研究人员将训练更大的神经网络称为外循环(r l),而在每个层内训练W称为内循环(ir l)。 它们之间梯度计算的区别是,内循环针对的
是W(即模型f的参数),外循环针对的是网络其余部分的参数θr。 5. 学习自监督任务 可以说,最重要的部分是自监督任务,因为它决定了W从测试序列中学习的特征类型。 在这个任务的设计上,研究人员采取了更加端到端的方法直接优化自监督任务以实现下一个k预测的最终目标。 具体来说,研究者将自监督任务的学习,作为外循环的一部分。 从如上公式中的简单重构任务开始,添加了一些外循环参数来让这个任务可学习。最新的自监督损失是: 在内循环中,只有W被优化,因此作为ℓ的参数写出;θ们是这个损失函数的“超参数”。在外循环中,θK,θ,θ与θr一起被优化,而W仅仅是一个隐藏状态,不是参数。 图用代码说明了这种区别,其中θK和θ被实现为层的参数,类似于自注意力中的K参数。 总的来说,θK,θ,θ所有可能的选择构成了一系列多视图重构任务,外循环可以被理解为从这个任务组中选择一个具体任务。为了简单起见,研究人员在这里将所有视图设计为线性投