大语言模型背后的原理 - arxiv

语言本质上是一个由语法规则支配的复杂、错综复杂的人类表达系统。它对开发能够理解和掌握语言的人工智能算法提出了重大挑战。

作为一种主要的方法，语言建模在过去20年里被广泛研究，用于语言理解和生成，从统计语言模型发展到神经语言模型。

最近，通过在大规模语料库上预训练Transformer模型，提出了预训练语言模型（PLMs），在解决各种NLP任务方面显示出强大的能力。由于研究人员发现模型的缩放可以导致性能的提高，他们通过将模型规模增加到更大的规模来进一步研究缩放效应。

有趣的是，当参数规模超过一定水平时，这些放大的语言模型不仅取得了明显的性能改善，而且还表现出一些小规模语言模型所不具备的特殊能力。

为了区分参数规模的不同，研究界为具有相当规模的PLM创造了大语言模型（LLM）这一术语。

最近，学术界和工业界对LLM的研究基本得到了推进，一个显著的进展是ChatGPT的推出，引起了社会的广泛关注。

LLM的技术演进一直在对整个人工智能界产生重要影响，这将彻底改变我们开发和使用人工智能算法的方式。

在这份调查报告中，我们通过介绍背景、关键发现和主流技术来回顾LLM的最新进展。
特别是，我们专注于LLM的四个主要方面，即预训练、适应性调整、利用和能力评估。
此外，我们还总结了开发LLM的现有资源，并讨论了未来方向的剩余问题。

上下文的长窗口是大语言模型的核心秘密

对于每一款新iPhone，我们都期望更长的电池续航时间。上下文窗口长度是LLM的新电池。对于每一个新.
柏拉图洞穴寓言 vs. AI表征假说 vs. 表观遗传

柏拉图的洞穴寓言是一个哲学思想实验，首次出现在他的著作《理想国》中。用来说明人类认知和现实之间的关系.
大模型与生成式AI有本质区别

大语言模型LLM突出了”语言“，但是人们存在对”语言”认知偏见，以为语言就是修辞、写作或交流或说服.
大语言模型和语言理论之争论

这篇文章讨论了大语言模型（LLM）和语言学领域之间的关系，大语言模型和语言学：探索联系并重新开启辩论.
MIT：大模型不只是文字游戏

这篇来自麻省理工学院的文章揭示了大型语言模型 (LLM) 的一些潜在革命性的东西——它们所做的不.
复杂性系统的遍历性、复杂性和涌现性

遍历性ergodicity：在我们观察它的时间里，个体系统是否探索了所有可能的东西，对个体的研究是否.
gpt-finite-state.ipynb ：一个带有两个标记0/1和上下文长度为3的小型GPT

训练/研究微小的GPT很有趣，因为它变得很容易可视化，并对整个动态系统有一个直观的感觉。这是一个带有.

7月头两天内AI最新消息

2024年7月1日：一项新颖的人工智能研究探索了雄性和雌性鸟翼蝶之间的进化差异，为查尔斯·达尔文和阿.
元规划：使用规划器解决数学问题

使用规划器编程（planner programming）解决数学问题的文章。规划器编程和动态规划 (.
双相元编程：一种新语言设计方法

本文讨论了编程语言的一种趋势，即允许相同的语法表达在两个不同阶段或环境（上下文）中执行的计算同时.
比尔盖茨：元认知将是AI下一个前沿

比尔-盖茨说，人工智能系统的扩展还需要两次迭代，之后的下一个重要领域是元认知（metacogniti.
幽默：我们需要一名医生

人群：需要一位医生医生：我是一位医生人群：有人心脏病发了医生：我是一个AI安全调查员人群：他快要死了.