影。 . ii-bh 并行化 目前,运算(FL)次数方面已经非常高效。 然而,其更新规则: 无法实现并行化,因为W在两个位置上依赖于W-:负号和▽l。 对此,研究人员提出了ii-bh梯度下降,用b表示批大小。 研究中使用G = ▽lW’;,其中’ = – d,b,其中代表着前一个ii-bh的最后一个时间步(或者第一个ii-bh ),因此,可以一次并行b个梯度计算。 7. 对偶形式 上面介绍的并行化是必要的,但对于“实际运行时间”(wll-lk i)的效率来说还不够。 然而,现实中,是无法对单个l来计算G所有的b。相反,需要b个外积来对其进行一一计算。更糟糕的是,
对于每个 G是dd,这会比大d产生更大的内存占用和I/
成本。 为了解决这两 以色列日期目标电话号码或电话营销数据 个问题, 研究人员观察到:我们实际上并不需要具体化G, . . . , Gb,只要要我们可以在ii-bh结束时计算Wb,并且输出k z, . . . , zb(如上图7所示)。 现在,就可以用上面简化的-Lir情况来演示这些计算,表示 = [, . . . , b]: 所以Wb可以用l方便地计算出来。为了计算Z = [z, . . . , zb],我们知道: 表示 和矩阵 可以得出: 如上过程,研究人员将其称为「对偶形式」。 8. 理论等价 前面已经提到f可以是线性模型,也可以是神经网络。还有更新规则的三种变体:li GD、bh GD和ii-bh GD。 如下图所示,在这些组合中,每一种都会引起层的不同实例化。 研究中,作者分别从个定理证明了在这些诱导实例中,具有线性模型和bh GD的层等同于线性注
意力一个广为人知的R层。 图总结了所有序列建模层
的更广泛范围内层的一般定义。 . 两种变体 报道的数据在美国通过社交网 研究中,作者提出了层的两种变体-Lir和-L,仅在f的实例化方面有所不同。 对于-Lir, ,其中W是平方。对于-L,有两层,类似于rfr的L。 具体来说,隐藏维度是输入维度,然后是GL激活。为了在期间获得更好的稳定性,f始终包含层归一化 L 和残差连接。 即, ,其中,可以是或。 实验 通过与两个基线rfrr和b(现代R)比较,研究人员评估了-Lir和-L。 数据集 继续b论文之后,研究人员在il上执行了k和8k上下文长度的标准实验,il是一个用于训练开源LL的流行文档数据集。 主架构 rfrr和b使用不同的,除非另有说明,-Lir和-L始终使用b架构。 . 短上下文:h il 在k上下文中,-Lir、b和rfrr具有相当的性能,线条大部分重叠。 -L在较大的FL预算下表现稍差。尽管-L在每个模型大小上,都比-Lir具有更好的复杂度,但FL的额外成本抵消了这种优势。 在8k上下文中,-Lir和-L的表现均明显优于b。即使是具有rfrr架构的-L,性能也比b略好。 另外,研究人员还观察到了一个非常明显的现象:随着上下文长度变长,层相对于b的优势就更大了。 . 长上下文:Bk 为了评估长上下文中的功能,研究人员使用了il的一个流行子集Bk,对从k到k以个增量的上下文长度进行了实验。 根据上图,可以观察到 在Bk的k上下文中,il k的所有观察结果仍然成立,唯一的例外是b的表现略好于-Lir。 在k上下文中,-Lir和-L的性能均优于b,与il 8k的观
察结果类似。即使具有rfrr架构的-L,在k上下文中的表现也
比b稍好。 在.B尺度上,-L仅比-L稍差。由于缺之清晰的线性拟合,很难推导出经验缩放定律。然而,-L的强劲趋势表明,rfrr架构可能更适合超出评估的更大模型和更长上下文。 上下文长度作为超参数 虽然输入序列的长度由用户确定,但语言模型处理输入的上下文长度可以由工程师确定。因此,上下文长度也是一个可以选择的超参数。 对于具有线性复杂度的LL,研究人员选择了困惑度中的rgi,因为每个上下文长度都有相同的FL。 从图中,可以观察到以下结果 性能最好的方法-Lir和-L的线几乎完全重叠。b和F Fi的线在^ FL后也大部分重叠。 F Fi的性能明显优于F rri,因为它受益于长上下文,而不会在训练FL中产生极大的成本。 对于所有从头开始训练的方法(包括F预训练),一旦上下文长度变得太大,困惑度就会变得更糟。 从上图可见,与-Lir相比,-L在短上下
文中表现稍差,但在长上下文中表 阿联酋手机号码 现更好。 这一观察结果正符合研究人员的预期,即作为隐藏状态的L比线性模型更具表现力。同样,所有方法都具有与b .B相同的训练FL。 . 实际运行时间 LL训练和推理可以分解为前向、后向和生成。 由于前向(在训练和推理期间)和后向都可以并行化,因此研究人员使用对偶形式。生成新k(也称为解码)本质上是顺序的,因此研究人员使用原始形式。 由于资源限制,这项实验是用J编写并在上运行的。 然而,由于b(在yrh、ri和D中实现)只能在G上运行,因此为了公平比较,研究人员还重写了方法,以在G上运行。 具体来说,研究人员在hdrKi中编写了一个用于前向的G内核。从历史上看,由于并行性和矩阵相乘的使用不当,R在前向和后向过程中效