图像AIGC能成为好的世界模型吗

生成式模型能成为好的世界模型吗?

杨丽坤(杨立昆 Yann LeCun)认为:现实主义和多样性之间存在权衡:

  • 生成模型越现实,其多样性就越少。
  • 现实主义是以覆盖率为代价的。逼真是以覆盖面为代价的。换句话说,最逼真的系统是模式坍缩的。

我的直觉得到了越来越多的经验证据的支持:

  • 世界模型不应该是生成性的。
  • 它们应该在表示(表征)空间中进行预测。

这是支持JEPA(联合嵌入预测架构)的主要论点。
  • 在表示空间中,不存在不可预测或不相关的信息。

这篇论文讨论了条件图像生成模型作为世界模型的潜力,强调了为了成为有效的世界模型,这些模型不仅需要在图像质量和提示-图像一致性方面表现出色,而且还需要确保高度的表示多样性。

作者指出,当前的研究主要集中在创造性应用上,这些应用主要关注人类对图像质量和美学的偏好,而忽略了表示多样性。论文中提到了生成模型在推理时的机制——或称为“旋钮”,这些可以控制生成过程的一致性、质量和多样性。

作者使用最新的文本到图像和图像到文本的模型,以及它们的“旋钮”,来绘制一致性-多样性-现实感的Pareto前沿,提供了一个全面的多目标视角。

实验表明:

  • 现实感和一致性可以同时提高,
  • 但现实感/一致性与多样性之间存在明显的权衡。

通过观察Pareto最优点,发现:

  • 早期模型在表示多样性方面更好,而在一致性/现实性方面较差,
  • 而最近的模型在一致性/现实性方面表现优异,同时显著降低了表示多样性。

在对GeoDE数据集的Pareto前沿计算中,作者发现最初的潜在扩散模型版本在所有评估轴上往往比最新模型表现更好,并且存在不同地理区域之间的一致性-多样性-现实感差异。

总体而言,分析清楚地表明,没有最好的模型,模型的选择应该由下游应用来决定。

作者推荐研究社区考虑Pareto前沿作为一种分析工具,以衡量朝着世界模型的进展。

网友:
1、很有意思!对于为什么大脑确实有一个生成模型,可以从更高层次的假设中填充细节,我发现一个令人信服的论点是,在不同的表征层次上,视觉感知具有不可避免的一致性。

当你看到花瓶在脸上,你也看到所有的本地数字地面关系翻转。

大多数神经科学家认为,物体身份(脸与花瓶)是在一个较晚的区域(IT皮层)比局部图形背景关系(V2)。

此外,代表左侧轮廓的V2细胞可能不会直接与代表右侧轮廓的V2细胞对话。

这引发了一个疑问:不可避免的一致性从何而来?
* 如果 * 大脑具有生成模型,而意识完全归因于自上而下生成的内容,那么人们可以很好地解释这种一致性:我们所感知的东西在各个层面上总是一致的,因为它是生成的。

但如果你不相信大脑有一个生成模型,那么你就需要提出一个替代解释?

2、我不确定Yann的观点是否与生成处理的存在相冲突。 例如,“世界模型”可以存在于紧凑的表示空间中,当需要时,该空间可以用于生成处理。