本周10个Github有趣项目WebLlama等

10个Github有趣的项目、工具和库

1、WebLlama
Llama-3 网络Web代理，这是使用 Llama 3 构建的最强大的代理，通过聊天对话实现Web导航，可以按照说明浏览网页并与您交谈。
在Llama-3-8B-Web性能上超过了 GPT-4V（*零样本）18%

2、LLaMA-Factory
统一对 100 多个 LLM 进行高效微调。

特征：

各种型号：LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等。
综合方法：（连续）预训练、（多模式）监督微调、奖励建模、PPO、DPO 和 ORPO。
可扩展资源：32 位全调优、16 位冻结调优、16 位 LoRA 和 2/4/8 位 QLoRA 通过 AQLM/AWQ/GPTQ/LLM.int8。
高级算法：GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ 和 Agent 调整。
实用技巧：FlashAttention-2、Unsloth、RoPE 缩放、NEFTune 和 rsLoRA。
实验监视器：LlamaBoard、TensorBoard、Wandb、MLflow等
更快的推理：OpenAI 风格的 API、Gradio UI 和 CLI 以及 vLLM Worker。

基准：

与 ChatGLM 的P-Tuning相比，LLaMA Factory 的 LoRA 调优可提供高达3.7 倍的训练速度，并在广告文本生成任务上获得更好的 Rouge 分数。通过利用 4 位量化技术，LLaMA Factory 的 QLoRA 进一步提高了 GPU 内存的效率。

3、tkforge
在 Figma 中拖放即可轻松创建 Python GUI。
ParthJadhav 和 Tkinter Designer 已经完成了相同的功能，但是该项目有自己特点：

超级容易使用
拖放 GUI 制作器
支持占位符文本
支持多帧
根据背景自动将前景设置为黑色或白色（并不总是准确）

4、Perplexica
Perplexica 是一个人工智能驱动的搜索引擎。它是 Perplexity AI 的开源替代品。

Perplexica 是一款开源的人工智能搜索工具或人工智能搜索引擎，可以深入互联网寻找答案。受到 Perplexity AI 的启发，它是一个开源选项，不仅可以搜索网络，还可以理解您的问题。它使用相似性搜索和嵌入等先进的机器学习算法来完善结果，并提供明确的答案和引用的来源。
Perplexica 使用 SearxNG 保持最新且完全开源，确保您始终获得最新信息，而不会损害您的隐私。

5、torchtitan
用于大型模型训练的原生 PyTorch 库。torchtune 现在正式支持 Meta Llama3！

torchtune 是一个 PyTorch 原生库，可以轻松地使用 LLM 进行创作、微调和实验。我们很高兴地宣布我们的 alpha 版本！
torchtune 提供：

使用可组合和模块化构建块对流行的 LLM 进行本机 PyTorch 实现
针对流行的微调技术（LoRA、QLoRA）的易于使用且可破解的培训方案 - 没有培训师，没有框架，只有 PyTorch！
YAML 配置可轻松配置训练、评估、量化或推理方法
内置支持多种流行的数据集格式和提示模板，帮助您快速开始训练

6、LMDeploy
LMDeploy 是一个用于压缩、部署和服务 LLM 的工具包。由MMRazor和MMDeploy团队开发。它具有以下核心特点：

高效推理：LMDeploy 通过引入持久批处理（又称连续批处理）、阻塞 KV 缓存、动态拆分和融合、张量并行、高性能 CUDA 内核等关键功能，提供比 vLLM 高出 1.8 倍的请求吞吐量。
有效量化：LMDeploy支持仅权重和k/v量化，4位推理性能比FP16高2.4倍。量化质量已通过 OpenCompass 评估得到确认。
轻松的分发服务器：利用请求分发服务，LMDeploy 有助于跨多台机器和卡轻松高效地部署多模型服务。
交互推理模式：通过缓存多轮对话过程中注意力的k/v，引擎记住对话历史，从而避免对历史会话的重复处理。

7、cohere-toolkit
工具包是预构建组件的集合，使用户能够快速构建和部署 RAG 应用程序。
此存储库中的组件包括：

src/interfaces/coral_web- 在 Next.js 中构建的 Web 应用程序。包括一个开箱即用的简单 SQL 数据库，用于在应用程序中存储对话历史记录。
src/backend- 包含预配置的数据源和检索代码，用于在自定义数据源（称为“检索链”）上设置 RAG。用户还可以配置要使用的模型，从托管在 Cohere 平台、Azure 和 AWS Sagemaker 上的 Cohere 模型中进行选择。默认情况下，我们配置了一个 Langchain 数据检索器来测试维基百科和您自己上传的文档上的 RAG。

8、Cognita
RAG（检索增强生成）框架，用于通过 TrueFoundry databonsai

构建用于生产的模块化开源应用程序使用LLM清理和管理您的数据。

Langchain/LlamaIndex 提供易于使用的抽象，可用于在 Jupyter Notebook 上进行快速实验和原型设计。但是，当产品投入生产时，会遇到一些限制，例如组件应该是模块化的、易于扩展和扩展。这就是 Cognita 发挥作用的地方。 Cognita 在底层使用 Langchain/Llamaindex 并为您的代码库提供组织，其中每个 RAG 组件都是模块化、API 驱动且易于扩展的。

9、Convex
Convex 是用于全栈应用程序开发的后端即服务。 Convex 取代了数据库、服务器功能、调度、存储、矢量搜索等。

Convex是用于全栈应用程序开发的后端即服务。精心策划的组件，由专家优化。

Convex 取代了您的数据库、服务器功能、调度、存储、矢量搜索等。它包括一组与您的前端应用程序代码深度集成的客户端库，以提供完全一致的缓存和开箱即用的实时更新。您所需要做的就是编写应用程序代码。
开始使用 Convex 的最佳方法是遵循 Convex 文档中的入门指南。

10、CopilotKit
如何将聊天机器人深度集成到您的应用程序中：用于构建自定义 AI Copilots 应用内 AI 聊天机器人、应用内 AI 代理和 AI 驱动的文本区域的框架。

构建应用程序感知的人工智能聊天机器人，可以“查看”当前应用程序状态并在应用程序内采取操作。AI 聊天机器人可以通过插件与您的应用程序前端和后端以及第 3 方服务（Salesforce、Dropbox 等）对话。支持生成式 UI。

自动补全+人工智能编辑+从头开始生成内容
让代理访问实时应用程序上下文，并让代理在应用程序内执行操作。

在您的应用程序中定义以下简单的入口点，CopilotKit执行引擎会处理剩下的事情！

应用程序状态（前端+后端+第3方）
应用程序交互（通过typescript 代码，前端+后端）
特定用途的LLM 链