本周10个Github有趣项目WebLlama等

10个Github有趣的项目、工具和库

1、WebLlama
Llama-3 网络Web代理,这是使用 Llama 3 构建的最强大的代理,通过聊天对话实现Web导航,可以按照说明浏览网页并与您交谈。
Llama-3-8B-Web性能上超过了 GPT-4V(*零样本)18%

2、LLaMA-Factory
统一对 100 多个 LLM 进行高效微调。

特征:

  • 各种型号:LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等。
  • 综合方法:(连续)预训练、(多模式)监督微调、奖励建模、PPO、DPO 和 ORPO。
  • 可扩展资源:32 位全调优、16 位冻结调优、16 位 LoRA 和 2/4/8 位 QLoRA 通过 AQLM/AWQ/GPTQ/LLM.int8。
  • 高级算法:GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ 和 Agent 调整。
  • 实用技巧:FlashAttention-2、Unsloth、RoPE 缩放、NEFTune 和 rsLoRA。
  • 实验监视器:LlamaBoard、TensorBoard、Wandb、MLflow等
  • 更快的推理:OpenAI 风格的 API、Gradio UI 和 CLI 以及 vLLM Worker。

基准:

  • 与 ChatGLM 的P-Tuning相比,LLaMA Factory 的 LoRA 调优可提供高达3.7 倍的训练速度,并在广告文本生成任务上获得更好的 Rouge 分数。通过利用 4 位量化技术,LLaMA Factory 的 QLoRA 进一步提高了 GPU 内存的效率。

3、tkforge
在 Figma 中拖放即可轻松创建 Python GUI。
ParthJadhav 和 Tkinter Designer 已经完成了相同的功能,但是该项目有自己特点:

  • 超级容易使用
  • 拖放 GUI 制作器
  • 支持占位符文本
  • 支持多帧
  • 根据背景自动将前景设置为黑色或白色(并不总是准确)

4、Perplexica
Perplexica 是一个人工智能驱动的搜索引擎。它是 Perplexity AI 的开源替代品。

Perplexica 是一款开源的人工智能搜索工具或人工智能搜索引擎,可以深入互联网寻找答案。受到 Perplexity AI 的启发,它是一个开源选项,不仅可以搜索网络,还可以理解您的问题。它使用相似性搜索和嵌入等先进的机器学习算法来完善结果,并提供明确的答案和引用的来源。
Perplexica 使用 SearxNG 保持最新且完全开源,确保您始终获得最新信息,而不会损害您的隐私。

5、torchtitan
用于大型模型训练的原生 PyTorch 库。torchtune 现在正式支持 Meta Llama3!

torchtune 是一个 PyTorch 原生库,可以轻松地使用 LLM 进行创作、微调和实验。我们很高兴地宣布我们的 alpha 版本!
torchtune 提供:

  • 使用可组合和模块化构建块对流行的 LLM 进行本机 PyTorch 实现
  • 针对流行的微调技术(LoRA、QLoRA)的易于使用且可破解的培训方案 - 没有培训师,没有框架,只有 PyTorch!
  • YAML 配置可轻松配置训练、评估、量化或推理方法
  • 内置支持多种流行的数据集格式和提示模板,帮助您快速开始训练

6、LMDeploy
LMDeploy 是一个用于压缩、部署和服务 LLM 的工具包。由MMRazorMMDeploy团队开发。它具有以下核心特点:

  • 高效推理:LMDeploy 通过引入持久批处理(又称连续批处理)、阻塞 KV 缓存、动态拆分和融合、张量并行、高性能 CUDA 内核等关键功能,提供比 vLLM 高出 1.8 倍的请求吞吐量。
  • 有效量化:LMDeploy支持仅权重和k/v量化,4位推理性能比FP16高2.4倍。量化质量已通过 OpenCompass 评估得到确认。
  • 轻松的分发服务器:利用请求分发服务,LMDeploy 有助于跨多台机器和卡轻松高效地部署多模型服务。
  • 交互推理模式:通过缓存多轮对话过程中注意力的k/v,引擎记住对话历史,从而避免对历史会话的重复处理。

7、cohere-toolkit
工具包是预构建组件的集合,使用户能够快速构建和部署 RAG 应用程序。
此存储库中的组件包括:

  • src/interfaces/coral_web- 在 Next.js 中构建的 Web 应用程序。包括一个开箱即用的简单 SQL 数据库,用于在应用程序中存储对话历史记录。
  • src/backend- 包含预配置的数据源和检索代码,用于在自定义数据源(称为“检索链”)上设置 RAG。用户还可以配置要使用的模型,从托管在 Cohere 平台、Azure 和 AWS Sagemaker 上的 Cohere 模型中进行选择。默认情况下,我们配置了一个 Langchain 数据检索器来测试维基百科和您自己上传的文档上的 RAG。

8、Cognita
RAG(检索增强生成)框架,用于通过 TrueFoundry databonsai

构建用于生产的模块化开源应用程序 使用LLM清理和管理您的数据。

Langchain/LlamaIndex 提供易于使用的抽象,可用于在 Jupyter Notebook 上进行快速实验和原型设计。但是,当产品投入生产时,会遇到一些限制,例如组件应该是模块化的、易于扩展和扩展。这就是 Cognita 发挥作用的地方。 Cognita 在底层使用 Langchain/Llamaindex 并为您的代码库提供组织,其中每个 RAG 组件都是模块化、API 驱动且易于扩展的。

9、Convex
Convex 是用于全栈应用程序开发的后端即服务。 Convex 取代了数据库、服务器功能、调度、存储、矢量搜索等。

Convex是用于全栈应用程序开发的后端即服务。精心策划的组件,由专家优化。

Convex 取代了您的数据库、服务器功能、调度、存储、矢量搜索等。它包括 一组与您的前端应用程序代码深度集成的客户端库,以提供完全一致的缓存和开箱即用的实时更新。您所需要做的就是编写应用程序代码。
开始使用 Convex 的最佳方法是遵循 Convex 文档中的入门指南


10、CopilotKit
如何将聊天机器人深度集成到您的应用程序中:用于构建自定义 AI Copilots 应用内 AI 聊天机器人、应用内 AI 代理和 AI 驱动的文本区域的框架。

构建应用程序感知的人工智能聊天机器人,可以“查看”当前应用程序状态并在应用程序内采取操作。AI 聊天机器人可以通过插件与您的应用程序前端和后端以及第 3 方服务(Salesforce、Dropbox 等)对话。支持生成式 UI。

  • 自动补全+人工智能编辑+从头开始生成内容
  • 让代理访问实时应用程序上下文,并让代理在应用程序内执行操作。

在您的应用程序中定义以下简单的入口点,CopilotKit执行引擎会处理剩下的事情!

  • 应用程序状态(前端+后端+第3方)
  • 应用程序交互(通过typescript 代码,前端+后端)
  • 特定用途的LLM 链