是什么让 Phi-3 如此出色?

人工智能 (AI) 世界正在不断发展,更强大的模型不断涌现。然而,这些模型通常需要大量的计算资源,限制了它们对个人设备的访问。微软正在通过推出有史以来最小的人工智能模型Phi-3来打破这一障碍。该模型拥有令人印象深刻的功能,同时保持足够的效率以在智能手机上运行。

要点:

  • Phi-3迄今为止创建的最小的 AI 模型,旨在在处理能力有限的设备上实现高效性能。
  • Phi-3 为强大的设备人工智能功能铺平了道路,将智能直接带入您的口袋。
  • 从更智能的助手到个性化体验,Phi-3 有望彻底改变我们与技术互动的方式。

什么是 Phi-3 人工智能?
Microsoft Phi-3是小语言模型 (SLM)领域的一项突破。与需要大量数据和处理能力的大型同类产品不同,Phi-3 的设计是轻量级且高效的。这是通过使用受儿童故事启发的独特训练方法来实现的,使 Phi-3 能够从较小的数据集中有效地学习。

Phi 3 人工智能的优势
Phi-3 的紧凑尺寸为用户带来了众多好处:

  • 设备上的人工智能:  Phi-3 可以直接在智能手机和其他个人设备上运行,无需持续的互联网连接。这意味着更快的响应时间、更好的隐私性以及潜在的更低的数据消耗。
  • 增强的用户体验: Phi-3 有潜力为更智能的虚拟助理提供支持,使他们能够更准确地理解自然语言,并以更符合上下文和个性化的方式做出响应。想象一下,语音助手可以预测您的需求,提供主动建议,甚至进行更自然的对话。
  • 可访问性和可承受性: 与较大的 AI 模型相比,Phi-3 的尺寸较小,开发和部署起来更加经济实惠。这为将人工智能更广泛地集成到各种应用程序中打开了大门,即使对于资源有限的企业也是如此。

是什么让Phi-3 如此出色?
网友体验:
1、我一直在为 RAG 测试Phi-3 ,我得到的响应与 Mistral7B 没有什么区别。

  • 它非常擅长遵循指示。
  • 不是最擅长“创意”任务,
  • 但非常适合 RAG。

2、微软开发这款软件的目的,基本上是想看看在不需要人类全部知识的情况下,他们能在推理和理解方面走多远。过去几个重要版本表明,数据整理是多么重要。我的理解是,PHI 的秘诀主要是在课程式学习中使用合成数据来教授演绎推理和逻辑

3、我真的等不及微软发布于 14b 型号了。Seb Bubek 说,Phi-3 的性能扩展速度比其他任何 llm 都要快得多。这一定会很有趣。

  • 不过,不要抱太大希望。微软有一个非常不好的习惯,那就是宣布发布却不执行。

4、这是未来人工智能的基础。每 6 个月根据所有新信息重新训练一个模型是不可能持续的,它也不可能包含所有知识。始终有必要利用上下文学习作为 LLM 的知识基础。

一旦你拥有了推理能力+注意力,并有足够大的上下文窗口来支持它,你就不需要一个根据最新信息训练出来的模型了。这样做的后果是,用户而不是模型创建者有责任调整模型。

这也意味着人工智能的体积可以更小,因此可以在更多硬件上运行。

5、另外还有一个问题,那就是人类的偏见会被植入任何根据自然人类数据训练出来的人工智能模型中,这就使得像 SD 这样的图像扩散模型极度偏向于美女,而不是普通女性或男性。这种偏见也存在于 LLM 中,可以通过让 LLM 生成图像提示来进行测试。

6、Phi-3 是否具有类似于 gpt4 的推理加注意力,但知识库更小?

  • 不,它们在结构上是不同的。每一种都有比另一种做得更好的地方。
  • 理论上,更大的模型应该总是更好。
  • 然而,Phi 的注意力和上下文大小更大,而且运行在更小的硬件上。

7、虽然他们本质上是在提炼 GPT4,但他们使用的不是直接教学,而是过滤和生成训练数据
他们不惜一切代价避免使用 "distillation:提炼/蒸馏 "一词,因为这样一来,他们的方法显然无法超越教师模式。

  • distillation :提炼是指提取隐藏状态,然后以隐藏状态为目标训练一个更小的模型。

8、我在 Godot 引擎中实施了 RAG,作为名为 Mind Game 的附加组件的一部分,目前我制作的所有游戏都默认使用 Phi-3。我的大部分测试都是使用 Mistral Instruct v0.2 完成的,Llama3 也很不错,但 Phi-3 的占用空间之小无可匹敌。

目前,我更关注模型的大小和效率,输出质量 "足够好 "就可以了。

  • 它甚至可以执行 "生成一个农民角色的名字,格式为 Name:[名][姓]的格式生成一个农民角色的名字,不含任何其他内容 "这样的指令。
  • 我正在努力实现一个强制 JSON 输出的功能,以便生成任何类型的字符/统计表。

9、Phi-3 是在非常好的数据基础上以一种新的方式进行训练的。

他们使用了来自网络的训练数据,也使用了其他语言模型(比如抄袭别人的作业)。因此,从本质上讲,他们是将其他 LLM 的精华部分提炼到一个更小的模型中。虽然有点过度简化,但这就是事实。


10、已经有相当多的基于浏览器的 RAG 实现。一些随机链接:


我个人想用它来搜索许多文档,并创建一个可以为用户做一些初步研究的机器人。例如,通过下载一堆维基百科页面,然后对其进行排名/压缩。