本周15个AI机器人最重要的发展

人工智能和机器人技术一直在以令人难以置信的速度发展。

以下是本周发生的15个最重要的发展：

1. 英伟达推出Project GR00T，帮助机器人了解世界

2.英伟达还推出了NVIDIA Blackwell在NVIDIA GTC。与H100相比，它可将成本和能耗降低高达25倍。

3. 马斯克 的Neuralink揭示了第一个使用BCI仅通过思想玩在线国际象棋的患者。患者在1月份接受了植入手术，并报告没有认知障碍，称手术“超级容易”

4. Open Interpreter发布了01 Light。这是一个便携式开源语音界面，连接到用户的计算机，允许AI控制应用程序，学习技能和观察屏幕。

5.苹果发布了一篇新论文，推出了MM1，这是一个新的多模态AI模型系列。最大的30B参数模型显示出强大的学习能力，仅从少数几个示例中学习，并对多个图像进行推理。

6.苹果在谈判将Gemini整合到iPhone中。该更新可能会在今年晚些时候的iOS 18上向数十亿用户推出先进的AI功能。

7. 英伟达还在NVIDIA GTC上发布了Earth-2。这是一个云平台，使用AI +数字孪生技术来预测极端气候变化和天气。

8. Google DeepMind的研究人员开发了VLOGGER。这是一种新的AI模型，可以从静态图像和音频剪辑中生成具有完整上身运动的说话化身视频。

用例包括：AI助手的现实主义，实时视频配音等等

9. xAI刚刚发布了Grok-1的weights +架构。它有314 B参数，使用Mixture-of-Experts，并且对于任何给定的输入令牌，只有25%的权重处于活动状态，以实现更有效的计算。

它是一个庞大的314 B参数语言模型，是GPT-3.5的2倍。协作和透明的人工智能开发取得了巨大的胜利。

10. Stability AI和普林斯顿大学的研究人员推出了MindEye 2，这是从大脑活动重建图像的一个飞跃。该模型将大脑数据连接到图像生成模型，以产生逼真的重建。

11.斯坦福大学和加州大学伯克利分校推出了Yell At Your Robot（YAY Robot）这是一种使用人类的自然语言反馈来提高机器人在长期任务中的性能的方法。

YAY机器人能够执行长时间、灵巧的操作任务，如准备混合料、包装ziploc袋和清洁餐具
长期任务是困难的--时间越长，某个阶段失败的可能性就越大。
人类能否通过直观和自然的反馈帮助机器人不断改进？
在这项工作中，我们整合语言改正实时监督语言条件技能，并使用此反馈来迭代改进策略。

它是如何工作的？

高级策略（类似于VLM）生成语言指令。
然后，低级策略（端到端语言条件BC）执行该技能。这使机器人能够理解语言指令并对其采取行动。
在部署过程中，人们可以通过纠正语言命令进行干预，覆盖机器人动态适应的高级策略。
然后，这些干预措施被用于后期培训和改进高级政策。

我们发现，机器人不断地从互动中学习-通过迭代后训练，语言纠正将自主策略的性能提高了20%。

12. Berkeley AI推出HumanoidBench。这是一个新的模拟基准，用于评估和推进人形机器人控制和学习的算法。
HumanoidBench是第一个模拟人形基准，具有27个不同的全身任务，需要复杂的长期规划和协调。
HumanoidBench中的核心环境具有高度灵巧的手的机器人模型，支持以下多模态观察：

1）重复模拟状态，
2）自我中心视觉观察，
3）全身触觉感知

我们设计了高分辨率的手部触觉传感器，并在其他身体部位设计了较低分辨率的触觉传感器，类似于人类的触觉。这导致在整个身体上总共有大约500个taxel，每个都提供3D（剪切+压力）接触力读数。

最先进的RL算法在最复杂的任务上挣扎。相比之下，我们发现，一个分层的学习范式，低层次的技能政策提供给一个高层次的规划政策，可以在很大程度上提高性能，在长期的推理。

HumanoidBench现在可用（开源）

13. Maisa宣布了其知识处理单元的测试版Maisa KPU。它通过将LLM的功能与解耦推理和数据处理相结合，在推理，理解和解决问题方面设定了新的标准。

知识处理单元是LLM的推理系统，它利用了LLM的所有推理能力并克服了其固有的局限性。
通过新颖的架构，该系统将LLM定位为中央推理引擎，推动了AI功能的边界。这种设计使KPU能够熟练地处理复杂的端到端任务，同时消除幻觉和上下文限制。

KPU在与最有能力的语言模型进行评估时，提高了GSM8k，MATH，BBH和DROP基准测试的性能。

适合场景：帮助客户解决订单未到达的问题。发现客户不小心没把订单ID写对。

14. Sakana AI发布了三种使用新训练方法的新日本AI模型。如果可扩展，它可能是人工智能模型的一个有趣的新的替代训练路径。

引入演化模型合并：一种新的方法，使我们更接近自动化基础模型开发。我们使用进化来寻找结合开源模型的好方法，构建具有用户指定能力的新的强大基础模型！
为日本生产基础模型。我们能够快速开发出3款具有语言、视觉和图像生成功能的同类最佳模型，为日本及其文化量身定制。
使用进化系统来训练人工智能，建立彼此和更小的模型。在许多方面，人工智能训练自己，这是机器构建和相互改进的前兆。

15.斯坦福大学的研究人员刚刚开发了安静STaR。这是一种有趣的新训练方法，使AI模型能够在响应之前进行“思考”。大模型能教自己实现一般的推理：通过内部独白自学。

推理在文本中无处不在--只是隐藏在字里行间。这是因为人们（通常）在说话之前会思考。因此，大模型可以学习从不同的在线文本中推理，如果他们能掌握：

1)下一个文本的原因
2)看看这个想法是否有帮助
3)从有益的思想中学习

令人兴奋的是，在不同的Web文本上进行自我教学推理会自动提高其他推理！Mistral通过在网络数据上训练自学，将其零射击常识推理准确率提高了三分之一，并将其零射击直接小学数学准确率提高了近一倍

虽然这种推理对预测大多数令牌没有多大帮助，但它对模型发现的最难的令牌帮助最大

另外，在生成过程中，这可以与思想链等技术相结合，让模型“安静地”推理其生成的思想的每个令牌！

怎么做到？

首先，Transformer LM是高效的，因为它们一次从文本中的所有位置进行训练。但是，生成推理通常只从一个地方发出信号。我们使用一个自定义的注意力掩码来对所有标记进行并行采样。达到序列长度×加速！
其次，我们构建了像要点标记令牌和软提示这样的元标记令牌：我们让模型自己学习如何表示思想的开始。
此外，我们让它决定忽略一个想法，最初给所有的想法没有重量。这可以防止任何初始分布偏移

Quiet-STaR概括了我们两年前的“自学推理者”（STaR）。