为什么大语言模型能将我们带入AGI?


杨立昆(Yann LeCun)提出,大型语言模型(LLM)并不能引领我们走向人工通用智能(AGI),因为它们缺乏形成心智模型的能力。尽管如此,一些观点认为LLM与人类智能的比较存在根本性的缺陷。

人类智能与LLM的比较分析

  • 人类智能是基于少量数据实时发展而来,而LLM则需要大量数据和预先训练。
  • 人类智能消耗的能源相对较少,而LLM则需要巨大的电力支持。
  • 人类智能具有元认知能力,而LLM则缺乏认知意识。

然而,这种比较忽略了人类智能发展过程中实际上利用的大量数据和力量。我们的认知结构是在数亿年的进化中形成的,并且编码在我们的DNA中。我们的感官在成长过程中处理了大量数据,尽管这一过程通常是潜意识的。

LLM从零开始构建认知架构,这在某种程度上重新封装了进化过程和实时学习。虽然人脑和LLM在处理数据和学习方面存在差异,但这并不意味着LLM无法提高智力。

人脑和 LLMs 的本质相似之处在于,它们本质上都是压缩算法

  • 将海量的世界数据压缩成世界观,从而提供预测模型来指导行动。

主要区别在于:

  • 人脑的架构和学习过程经过高度优化,效率很高,能够实时从相对较少的数据中学习。
  • 而 LLM 则需要大量的数据和计算能力才能实现类似的性能。

尽管我们对人类智能的架构运作方式知之甚少,LLM可以作为一种“蛮力”方法来弥补这种无知。随着对最佳架构的探索,LLM的效率正在迅速提高,例如通过开发更高效的注意力机制和结合稀疏表征来降低训练和推理的计算和数据要求。


LLM的未来:更小的数据集与自生成数据
当前对LLM时代进步的理解存在误区,认为需要使用越来越大的数据集。实际上,LLM正在朝着使用更小的数据集和学习如何在具有正反馈周期的合成数据上训练的方向发展。LLM训练过程能够生成自己的中间训练数据,为下一代训练数据提供基础。

LLM的定义:基于大型数据集、无监督学习、技能泛化以及下游任务广泛适用性的算法。这与人类智能相似,尽管我们的训练过程包含了进化和实时学习。