超越单词计数:上下文位置编码CoPE


语境上下文很重要! CoPE 是一种新的transformer位置编码方法,它考虑了 * 上下文 *。

  • - 可根据需要 "计算 "每个词头的距离,例如第 i 个句子或段落、单词、动词等。而不仅仅是标记。
  • - CoPE 解决了标准transformer无法解决的计数和复制任务。
  • - 在语言建模和编码任务方面,PPL 更胜一筹。

动机:
即使是功能强大的 LLM:如GPT4 & Llama 2,在按标记token索引时很难注意到句子等概念。

  • 这是架构的根本缺陷。
  • 一个连这都做不到的模型,如何实现 AGI?

CoPE 配方 :

  • - 计算每个查询、键对的门(使用上下文)
  • - 通过门的累积和计算位置

对每个词头都这样做。
这样就能对一个概念(如一个句子)进行非常敏锐的关注,而标准 PE 无法做到这一点。

CoPE 可以解决人工计数、选择性复制和 "Flip-Flop "任务等常用位置编码无法解决的问题。 它在分布内和分布外(与训练相比,在更大或更小的上下文中)都能更好地工作。

最后,CoPE 在标准语言和代码建模任务中表现出色,改进了 PPL。

该论文作者是 Meta 的 FAIR 的 Olga Golovneva、Tianlu Wang、Jason Weston 和 Sainbayar Sukhbaatar

以下是该论文的要点摘要:

CoPE 简介:

  • 作者提出了 CoPE,这是一种新的位置编码方法,允许模型在确定位置时考虑上下文,从而注意到句子
  • 这与基于 token 计数的传统位置编码不同,传统位置编码无法推广到更高的抽象层次,例如关注第 i 个句子

CoPE 的工作原理:

  • CoPE 根据 token 的上下文向量计算门值,
  • 并使用这些门值分配位置。

这允许更细致的注意力机制,例如关注特定的单词、名词或句子。

实验与结果:
进行了一系列实验来评估 CoPE 在各种任务上的性能,包括 Flip-Flop 语言建模、选择性复制、计数任务、Wikitext-103 上的语言建模和代码建模。

  • CoPE 的表现优于基于 token 的 PE 方法,尤其是在域外泛化方面。

效率和计算:
讨论了 CoPE 的计算效率,并指出它可以以最小的额外计算成本来实现。

CoPE 比传统的位置编码方法有了显着的改进,并且在文本和代码之外的各个领域都有潜在的应用。