苹果绝技:理解屏幕


每个人都在期待一个重生的Siri,Ferret-UI来了!

Ferret-UI:一个多模态视觉语言模型,它可以理解iOS移动的屏幕上的图标、小部件和文本,以及它们的空间关系和功能含义。

您可以向Ferret-UI询问的这些问题:

  • - 提供此屏幕截图的摘要;
  • - 对于交互式元素[bbox],提供一个最能描述其功能的短语;
  • - 预测UI元素[bbox]是否可替换。

有了强大的屏幕理解能力,不难将动作输出添加到模型中,使其成为一个成熟的设备上助手。

论文甚至讨论了数据集和iOS UI基准构建的细节。来自Apple的非凡开放!他们真正重新定义了他们的人工智能研究分支。

这个基本的开源MLLM模型项目(点击标题)主要贡献:

  • Ferret 模型 -混合区域表示 + 空间感知视觉采样器支持 MLLM 中的细粒度和开放词汇引用和基础。
  • GRIT 数据集(~1.1M)——一个大规模、分层、稳健的基础和参考指令调整数据集。
  • Ferret-Bench——一种多模式评估基准,联合需要引用/基础、语义、知识和推理。

网友:

  • “屏幕理解”是当今科技书呆子的概念。理解屏幕就是理解世界。考虑到苹果对世界上最有影响力的设备的物理电路和无形代码的控制,这将是苹果最大的优势。
  • Ferret UI还远远不能用于日常用户。 他们会在快捷键上添加函数调用
  • 看来,中低级设计师很快就不再需要了。高级人类设计师将成为装配线检查员,需要对自然语言和文化知识有深刻的理解,才能与代理商合作并创造体验式产品。