EasyVectorDB 是一个全面的向量数据库学习与实战指南,涵盖了从基础概念到生产部署的完整知识体系。本项目专注于 Milvus 和 Faiss 两大主流向量数据库,提供理论学习、实践教程和项目案例。
章节 | 内容 | 关键知识点 | 状态 |
---|---|---|---|
前言 | 前言 | 项目目标与大纲 | ✅ |
第一章 | 向量数据库介绍 | 核心概念/发展历程/应用场景/深入理解架构设计 | ✅ |
索引介绍 | 索引原理/类型选择/优化策略 | ✅ | |
聚类介绍 | 聚类原理/算法选择/优化策略 | ✅ | |
第二章 | Milvus Lite部署与应用 | Lite部署方案 | ✅ |
Milvus Standalone部署 | Standalone部署方案 | ✅ | |
MinerU部署 | MinerU部署方案 | ✅ | |
第三章 | Milvus 文本嵌入实战 | 文本嵌入实战案例 | ✅ |
Milvus pdf嵌入实战 | pdf嵌入实战案例 | ✅ | |
Milvus pdf多模型嵌入实战 | pdf多模型嵌入实战案例 | ✅ | |
Milvus 数据切分总结 | 数据切分场景和应用总结 | ✅ | |
第四章 | Milvus 存储优化 | mmp理论与实践,数据切分策略 | ✅ |
FunsionAnns | FusionANNS论文解读 | ✅ | |
向量 | 稀疏向量 TF-IDF BM25 ColBERT 嵌入向量的局限性 | ✅ | |
Meta-Chunking:一种新的文本切分策略 | Learning Text Segmentation and Semantic Completion via Logical Perception论文解读 | ✅ | |
第五章 | url分割处理 | 视频数据存储过程中url分割与存放 | ✅ |
Cre_milvus | 综合实践(暂定) | ⌛ | |
HDBSCAN聚类可视化 | 使用HDBSCAN聚类算法进行数据可视化 | ✅ | |
Text_search_pic | 文搜图 | ✅ | |
Meta-chunking | Meta-chunking论文实现demo | ✅ | |
Limit | Meta-limit论文实践 | ✅ | |
Locust | 基于Locust的Milvus性能测试工具 | ✅ | |
第六章 | k8s部署Milvus监控 | 基于loki与Grafana的Milvus监控系统 | ✅ |
章节 | 内容 | 关键知识点 | 状态 |
---|---|---|---|
Faiss核心原理与架构 | Faiss核心原理与架构 | ⌛ | |
待补充 | 索引构建与参数调优 | ⌛ | |
待补充 | GPU加速方案 | ⌛ | |
待补充 | 大规模向量检索实践 | ⌛ | |
待补充 | 文本嵌入实战 | ⌛ | |
待补充 | 不同数据库比较 | ⌛ |
- 📚 Datawhale社区介绍
- 🌐 在线文档站点
- 💻 项目源码
- 如果你发现了一些问题,可以提Issue进行反馈,如果提完没有人回复你可以联系保姆团队的同学进行反馈跟进~
- 如果你想参与贡献本项目,可以提Pull request,如果提完没有人回复你可以联系保姆团队的同学进行反馈跟进~
- 如果你对 Datawhale 很感兴趣并想要发起一个新的项目,请按照Datawhale开源项目指南进行操作即可~
感谢所有为本项目做出贡献的开发者们!
- 感谢 @Sm1les 对本项目的帮助与支持
- 感谢所有为本项目做出贡献的开发者们 ❤️