大语言模型背后的原理 - arxiv


语言本质上是一个由语法规则支配的复杂、错综复杂的人类表达系统。它对开发能够理解和掌握语言的人工智能算法提出了重大挑战。

作为一种主要的方法,语言建模在过去20年里被广泛研究,用于语言理解和生成,从统计语言模型发展到神经语言模型。

最近,通过在大规模语料库上预训练Transformer模型,提出了预训练语言模型(PLMs),在解决各种NLP任务方面显示出强大的能力。由于研究人员发现模型的缩放可以导致性能的提高,他们通过将模型规模增加到更大的规模来进一步研究缩放效应。

有趣的是,当参数规模超过一定水平时,这些放大的语言模型不仅取得了明显的性能改善,而且还表现出一些小规模语言模型所不具备的特殊能力。

为了区分参数规模的不同,研究界为具有相当规模的PLM创造了大语言模型(LLM)这一术语。

最近,学术界和工业界对LLM的研究基本得到了推进,一个显著的进展是ChatGPT的推出,引起了社会的广泛关注。

LLM的技术演进一直在对整个人工智能界产生重要影响,这将彻底改变我们开发和使用人工智能算法的方式。

在这份调查报告中,我们通过介绍背景、关键发现和主流技术来回顾LLM的最新进展。
特别是,我们专注于LLM的四个主要方面,即预训练、适应性调整、利用和能力评估。
此外,我们还总结了开发LLM的现有资源,并讨论了未来方向的剩余问题。