扯蛋机器:人类又给ChatGPT贴上新标签

在《伦理与信息技术》杂志上发表的 一篇新论文中,来自苏格兰格拉斯哥大学的三位哲学研究人员认为:

  • 用“幻觉hallucinations”一词来描述聊天机器人编造信息是不准确和具有误导性的。
  • 相反,他们建议用更粗俗但更准确的术语“胡说八道bullshitting”来描述这种现象。

研究人员认为,像 ChatGPT 这样的聊天机器人并不是真正的感知或幻觉,而是在不考虑真实性的情况下冷漠地生成语句,这与哈里-法兰克福认识论巨作《论胡说》中哲学定义不谋而合:

  • 这篇巨作在对胡说的一般定义是“说话者对话语的真实性漠不关心的任何言论”。
  • 法兰克福认为,胡说八道是一种不顾事实、旨在说服的言论。

这种胡说分为两种:
  • 有误导目的的 "硬扯淡 硬扯蛋胡说"
  • 无目的的 "软扯淡 软扯蛋胡说"

ChatGPT 至少归类为 "软扯蛋者 "或 "扯蛋机器"。

研究人员认为,将聊天机器人的错误称为 "幻觉 "会让人产生误解,以为这些机器在误解、但却试图传达它们相信的东西,而实际上它们只是在输出类似人类的文本,没有任何意图或目的。

他们警告说,这种隐喻性语言可能会带来危险,因为人们会根据人工智能能力的传达方式做出决定。

把它们的错误称为‘幻觉’并非无害:这让人产生混淆,认为机器在某种程度上存在误解,但仍然试图传达它们相信或感知到的东西。

网友:

  • 分不清是人在扯蛋还是机器扯蛋
  • 与机器扯蛋很有趣,人生如果没有扯蛋,世界将怎样?
  • 人工智能并不打算说服别人或说实话。它只是模仿一个人,“预测”他们的讲话
  • LLM 并不“理解”任何东西。使用“理解”这样的语言从根本上就是误导。它们生成的输出与训练数据相似。这意味着它将倾向于具有相似的特征,例如将一周的第一天与星期日不需要“理解”或确定任何陈述的“真实性”。

Reddit讨论对话
这段对话反映了对LLMs 能力和局限性的深入思考,以及对它们如何理解和处理复杂概念的探讨:

  1. 幻觉与虚构:有人认为“幻觉”这个词可能会误导,因为它暗示模型有一个不正确的世界模型,而实际上模型并没有世界模型。而“虚构”这个词则被认为至少传达了模型正在产生虚假信息的信息。
  2. 真实性评估:有观点认为,LLMs 不能对其生成文本的真实性做出评估,因为它们只是基于概率生成文本,没有对真实性的内在评估机制。
  3. 概念表示:对话中提到了 Anthropics 公司的研究,该公司通过识别模型中的概念表示,并能够通过调整这些表示来影响模型的输出,从而提供了一种间接评估真实性的方法。
  4. 智能与数学:有参与者认为智能是一种复杂的数学和反馈循环,而LLMs 正是基于这种数学原理运行的。尽管它们可能不完美,但这并不意味着它们不智能。
  5. 概念与关联:对话中还讨论了概念在LLMs中的存在形式,一些参与者认为LLMs中的单词关联可以代表概念,而另一些则认为这些关联并不等同于概念。
  6. 模型的局限性:讨论指出,尽管LLMs可以根据训练数据中的模式生成文本,但它们可能无法理解或评估这些模式背后的“为什么”,即它们可能缺乏对生成文本背后原因的深入理解。
  7. 模型的可解释性:对话提到了模型可解释性研究的重要性,这可以帮助我们更好地理解模型是如何工作的,以及它们是如何生成特定输出的。
  8. 模型的道德和哲学问题:讨论还涉及了关于真相、事实和道德观的哲学问题,以及这些概念如何与LLMs的运作方式相互作用。

精彩摘录:
1、大模型模型甚至看不到文本,模型“看到”的是标记,即数字。这些标记与基于模型本身的其他标记一起具有嵌入含义。该模型包含揭示嵌入的算法和流程。

那么问题是,什么是嵌入?
“金门大桥”这个词,以及这些词与汽车、旧金山和跳跃等词之间的关联

就像你大多数时候不会主动思考你建立的关联的原因一样,模型也不会主动思考,尽管它存在。它是隐藏在输出之外的潜在信息,但如果没有因果或相关关系,关联也就不会存在。

这就是人类学可解释性研究的全部意义。

他们在模型中不存在语言的层面上寻找可解释的模式,并试图将其转换成语言表示,这样他们就可以更好地理解模型内部发生的事情,因为即使没有语言,模型的每个层面上都会发生表示。

我要再说一遍...即使语言没有发生,表征也会发生在模型的每个级别

现在,我并不是说模型的思维方式和人类一样。我们可以从它产生创造力的方式等事情中看到这一点。

模型理解概念,但理解方式与人类并不完全相同,因为它处理理解的方式与人类不同。它有一套完全不同的转换方式,这有时会导致一些奇怪的事情,在试图获得结果时,也会导致一些棘手的事情。

  • 其中一些问题可以解决,因为模型足够智能,你可以教它人类的概念,
  • 而有些问题对于特定的架构和训练方法来说更为根本。

但这些都不能否认概念是可以表示和操纵的事实