开放Llama-3可能颠覆了封闭人工智能模型


Meta 仅在三天前发布了 Llama-3,感觉开源模型最终缩小了与专有模型的差距已经是一个拐点。初始基准测试显示 Llama-3 70B 在许多任务中与 GPT-4 非常接近:

  • 官方Meta 页面仅显示 Llama-3 优于 Gemini 1.5 和 Claude Sonnet。
  • 人工分析表明 Llama-3 的质量介于 Gemini-1.5 和 Opus/GPT-4 之间。
  • 在LMSYS Chatbot Arena 排行榜上,Llama-3 排名第 5,而当前的 GPT-4 模型和 Claude Opus 仍并列第 1。

更强大的 Llama-3 400B+ 模型仍在训练中,发布后很可能超越 GPT-4 和 Opus。

Meta 与 OpenAI
有人猜测,Meta 从一开始的目标就是以“焦土”的方式瞄准 OpenAI,发布强大的开放模型,扰乱竞争格局,避免在 AI 竞赛中落后。

Meta 在计算和人才方面的支出可能会超过 OpenAI:

  • OpenAI 的预计收入为 20 亿美元,并且可能无利可图。 2023 年,Meta 的收入为 $134B,利润为 $39B。
  • 目前,Meta 的计算资源可能超过 OpenAI。
  • 开源可能会吸引更好的人才和研究人员。

一种可能的结果是微软收购 OpenAI 以赶上 Meta。谷歌也在进军开放模型领域,并拥有与 Meta 类似的功能。看看它们适合什么位置将会很有趣。

赢家:开发者和人工智能产品初创公司
随着 Llama-3 的发布,开发者的机会更大:

  • 不再有供应商锁定。
  • 开发人员现在可以以非常经济高效且高性能的方式将人工智能深度集成到他们的产品中,而不仅仅是包装专有的 API 端点。 Hugging Face 上已经有超过 800 个llama-3 模型变体,看起来每个人都可以根据自己的使用案例、语言或行业进行微调。
  • 更快、更便宜的硬件:Groq 现在每秒可以生成 800 个 llama-3 代币,而成本只是 GPT 成本的一小部分。以低廉的价格提供近乎即时的法大模型课程即将到来。

视觉和视频的开源多模态模型仍然需要迎头赶上,但我预计这很快就会发生。

Llama-3 的发布标志着人工智能民主化的一个重要里程碑,但现在宣布专有模型的消亡可能还为时过早。谁知道呢,也许 GPT-5 会给我们所有人带来惊喜,超越我们对 Transformer 模型的想象。

这绝对是人工智能领域的超级激动人心的时刻!

网友讨论:
1、作为我工作的一部分,我非常密切地关注 Meta 的研究,特别是他们的开源研究。作为参考,我是一名知识产权律师,从事与赞助研究相关的许可工作。

Meta 的开源战略目前已扩展到多个领域。

从历史上看,Meta 通过 FAIR 参与开源工作已有多年(可追溯到 2013 年)。大约两年前,Meta 还设立了一个开源总顾问职位,负责处理许多此类问题。他们还与研究机构和大学合作,共同推动开源模式,即研究人员提前承诺开源任何相关研究。

这基本上为 Meta 免费提供了为其商业模式量身定制的代码和数据(根据美国国税局的规定,外部研究赞助商通常需要单独支付许可费),但他们也可以避免内部研发可能产生的许多税费,因为大部分时间都是通过非营利性研究机构进行的。

帖子中关于 Meta 焦土战略的另一点也是一个很好的观点。在经历了多年的争议之后,这种免费提供一切的做法也有助于重塑 "Meta"/"Facebook "的形象。尽管如此,在我看来,这并不像看上去那么出于善意。开源技术为企业带来了约 8.8 万亿美元的收益。

总的来说,我认为这是 Meta 一直以来奉行的非常有效的商业战略,但他们绝对没有像许多其他开源支持者那样,以更高的道德正义目标为动力。在很大程度上,他们仍然是一家以股东至上和极具侵略性的战略为主导的公司,很少考虑其他 B 类公司的道德目标。

2、深度学习进步如此之快的主要原因要归功于 LeCun、Hinton 和 Bengio 从一开始就推动开放科学。

Facebook 也长期以来一直是开源领域的领导者,例如 Reactjs 和 PyTorch。

Meta 的所有收入都来自广告,大多数初创公司将 30-60% 的风险投资资金花在广告上,而像 Llama 这样的开源模型有助于做大蛋糕,这对 Meta 有利。

3、Meta 是大型科技公司中唯一不需要围绕 LLM 建立平台的公司。在 Facebook、Instagram、WhatsApp、Threads 和 Metaverse 中,聊天机器人都有一个天然的家园。其他公司则必须建立平台,并将用户引入。

  • OpenAI 不得不建立 ChatGPT 和 GPT,
  • Anthropic 不得不为 Claude 创建一个平台,
  • 谷歌不得不建立一个Gemini 双子座接口。

Meta 公司本可以采取陈旧的策略,通过私人 LLM 提高用户参与度,但通过开放模型权重,他们将目光投向了更远大的目标。他们并没有把我们束缚在 Meta 平台上。这在一定程度上体现了利他主义。

在 Mistral 走了另一条路之后,这种做法更值得称赞。

因此,我很欣赏这一举措。它并不完美,但总比没有 LLaMA 好得多。

4、他们这样做是因为公开开源会削弱他们认为是竞争对手的公司(例如谷歌),同时增强不与之竞争的公司(例如一百万家小型人工智能初创公司)

这是一个很好的商业策略。不要试图主宰这个领域,而是要阻止你的竞争对手这样做

5、关于 Llama-3 的主题,如果有人想在免费的 Colab 中试验 Llama-3 8b,Unsloth可以使微调速度提高 2 倍,并且使用的 VRAM 减少 63%。推理速度也快了 2 倍。

6、这始终是一场计算游戏。从长远来看,meta 和 google 不会输。

7、Llama 3 不会杀死正规的人工智能初创公司,因为有很多企业拥有美元,但缺乏知识/专业知识/意愿来运行模型本身。与针对特定用例进行相应的验证+数据收集等操作相同。

也就是说,Llama 3 的现有将使这些初创公司的销售周期变得更加困难,因为他们无法以“拥有最好的型号(针对特定类别)”作为卖点。

这些公司很快就会倒闭吗?可能不会。他们筹集的资金非同小可,公司需要一段时间才能耗尽这笔资金。

也就是说,如果目前进行 LLM 预培训的初创公司中有一半以上在 5 年后仍然存在,我会感到非常惊讶。

8、无论做什么,大型科技公司在颠覆性创新方面本质上都比较慢。他们只能购买/与创新型初创公司合作。

9、Llama-3 落后了一年。虽然目前感觉像是一个领导者,但 GPT-4 此时已经存在一年多了。几个月后,GPT-X 和 Mixtral-Y 将取代它。

10、Llama-3 不是开源的!
Matt White 在 LinkedIn 上给出了很好的回答:“开源许可证由 OSI 维护。https://opensource.org/license。 Llama 3 社区许可证引用了 AUP,具有需要协商新许可证的触发条款,并且包含违反开放性原则的使用限制,即可以不受限制地将软件用于任何目的。 “

11、服务提供商与模型制造商分开也是件好事。即使你不想自己托管模型,你也可以调用其他人托管的模型的 API,而其他人不会是 Facebook。这是非常需要的权力分离。当然,更多的开源和更多的模型控制会更好,但当前的系统仍然在运行,并且开放模型在使用和功能上击败了封闭模型。

12、Meta 必须真正超越 GPT-5 或 Claude 才能“杀死”他们。人们想要最好的,而不是“令人惊讶地非常接近 SOTA 和开源”。

13、“Meta vs OpenAI”似乎是苹果与金橘的比较。
整个思路取决于 OpenAI 是一家语言模型公司的理念。事实并非如此。 OpenAI 制作语言模型是为了进一步研究 AGI,并不是因为这是他们的主要业务。 OpenAI 的核心仍然主要是对研发感兴趣,他们的 API 主要是一种赚取微薄资金以偿还微软的手段。