苹果绝技：理解屏幕

每个人都在期待一个重生的Siri，Ferret-UI来了！

Ferret-UI：一个多模态视觉语言模型，它可以理解iOS移动的屏幕上的图标、小部件和文本，以及它们的空间关系和功能含义。

您可以向Ferret-UI询问的这些问题：

- 提供此屏幕截图的摘要;
- 对于交互式元素[bbox]，提供一个最能描述其功能的短语;
- 预测UI元素[bbox]是否可替换。

有了强大的屏幕理解能力，不难将动作输出添加到模型中，使其成为一个成熟的设备上助手。

论文甚至讨论了数据集和iOS UI基准构建的细节。来自Apple的非凡开放！他们真正重新定义了他们的人工智能研究分支。

这个基本的开源MLLM模型项目（点击标题）主要贡献：

Ferret 模型 -混合区域表示 + 空间感知视觉采样器支持 MLLM 中的细粒度和开放词汇引用和基础。
GRIT 数据集（~1.1M）——一个大规模、分层、稳健的基础和参考指令调整数据集。
Ferret-Bench——一种多模式评估基准，联合需要引用/基础、语义、知识和推理。

网友：

“屏幕理解”是当今科技书呆子的概念。理解屏幕就是理解世界。考虑到苹果对世界上最有影响力的设备的物理电路和无形代码的控制，这将是苹果最大的优势。
Ferret UI还远远不能用于日常用户。他们会在快捷键上添加函数调用
看来，中低级设计师很快就不再需要了。高级人类设计师将成为装配线检查员，需要对自然语言和文化知识有深刻的理解，才能与代理商合作并创造体验式产品。

幽默：马斯克怒怼苹果AI

马斯克：马斯克：如果苹果在操作系统层面集成OpenAI，那么苹果设备将在我的公司被禁止。这是不可接.
亚马逊Alexa是如何失败的？

亚马逊对Alexa的投入可谓巨大，从200亿到430亿美元不等，且有约10,000人参与其中。然而，.
遥遥领先？库克解释苹果AI迟到的原因

苹果公司首席执行官蒂姆·库克（Tim Cook）与MKBHD进行的一次访谈在MKBHD的YouTub.
苹果智能：iOS 18 AI增强功能

苹果计划在 2024 年 WWDC 上推出一项名为“Apple Intelligence”的重大 A.
Apple WWDC 2024你需要知道的一切

关于Apple WWDC 2024你需要知道的一切：1、Vision Pro现在可以将Mac的显示屏.
亮点：Apple设备和服务器基础模型

以下是苹果官方刚刚发布的《Apple设备和服务器基础模型》白皮书中的4个亮点：1、我们利用适配器，可.
苹果推出“私有云计算”新系统

苹果推出了一个名为“私有云计算”的新系统，让你手机将复杂的（通常是人工智能）任务上传到云中的专用安全.
大模型内部有一个平面和直边构成的几何对象

论文《大型语言模型中的分类和层次概念的几何形状》研究了如何在大型语言模型 (LLM) 的嵌入空间中表.

三则大模型使用提示技巧

微调大模型提示时：是在提示中给出相关的例子？应该给出多少个最佳表现的例子？如果提供更多，是否会.
BM42：语义搜索与关键词搜索结合

40 年来，BM25 一直是搜索引擎的标准。然而，它无法满足现代 RAG 应用的需要。BM42 诞生.
LMOS：大型语言模型操作系统正在到来！

OpenAI联合创始人Andrej Karpathy（安德烈）解释了新的计算范式：我们正在进入一个新.
“万能钥匙”漏洞使AI变得邪恶

人工智能公司一直在努力阻止用户找到新的“越狱”来绕过他们实施的护栏，以防止聊天机器人帮助制造毒或炸 .
元学习：人类与大模型比较建模

本文介绍了一种心智模型的概念模型，该模型可以解释心智的关键特征，例如代理、学习、思考和内省。该模型的.