pathwaycom/llm-app:支持实时数据的RAG与AI企业搜索云模板
Pathway Live Data框架提供即用型LLM应用模板,支持高精度RAG和企业搜索,与多种数据源实时同步,可部署于云或本地。
Pathway Live Data框架的AI管道让您能够快速将AI应用投入生产,这些应用利用数据源中的最新知识,大规模提供高准确度的RAG和AI企业搜索。它为您提供即可部署的LLM(大型语言模型)应用模板。
您可以在自己的机器上测试它们,并在云端(GCP、AWS、Azure、Render等)或本地部署。这些应用与您的文件系统、Google Drive、Sharepoint、S3、Kafka、PostgreSQL、实时数据API上的数据源连接并同步(所有新增、删除、更新)。
它们没有需要单独设置的基础设施依赖。它们包含内置数据索引,支持向量搜索、混合搜索和全文搜索——所有这些都在内存中通过缓存完成。此仓库中提供的应用模板可扩展至数百万页文档。其中一些针对简单性进行了优化,另一些则针对惊人的准确性进行了优化。
选择最适合您的模板。您可以开箱即用,或更改管道中的某些步骤——例如,如果您想添加新数据源,或将向量索引改为混合索引,只需一行更改。这些应用可以作为Docker容器运行,并暴露HTTP API以连接前端。
为了快速测试和演示,一些应用模板还包含连接到此API的可选Streamlit UI。
这些应用依赖Pathway Live Data框架进行数据源同步和提供API请求(Pathway是一个独立的Python库,内置Rust引擎)。它们为您提供了一个简单而统一的后端、嵌入、检索、LLM技术栈应用逻辑。
无需为您的生成式AI应用集成和维护单独的模块:向量数据库(例如Pinecone/Weaviate/Qdrant)+缓存(例如Redis)+API框架(例如FastAPI)。
Pathway默认选择的内置向量索引基于闪电般快速的usearch库,混合全文索引利用Tantivy库。一切都开箱即用。此仓库中的每个应用模板都包含一个README.md,其中包含如何运行的说明。
您还可以在Pathway网站上找到更多即用型代码模板。通过多模态RAG实时从PDF、文档等中轻松提取和组织表格与图表数据:(查看使用GPT-4o的多模态RAG管道,了解整个管道的运作。
您也可以查看Unstructured-to-SQL管道,这是一个也适用于非多模态模型的最小示例。)自动化实时知识挖掘和警报:(查看Google Drive上答案变化时发出警报的应用示例。)要提供反馈或报告错误,请在我们的问题跟踪器上提交问题。
我们非常鼓励任何希望为该项目做出贡献的人,无论是文档、功能、错误修复、代码清理、测试还是代码审查。如果这是您对GitHub项目的第一次贡献,这里有一份入门指南。
如果您想做出需要更多工作的贡献,只需在Pathway Discord服务器(#get-help)上举手,让我们知道您的计划!
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。