把练习生送上舞台
Level 4 | 工程篇
从练习室到舞台,ikun 出道指南。
- 模型格式转换:PyTorch → HuggingFace → GGUF
- 搭建 OpenAI 兼容 API 服务
- Streamlit 聊天界面
- llama.cpp / ollama / vllm 部署
- 模型量化(int8/int4)减小体积
| 方式 | 适用场景 | 命令 |
|---|---|---|
eval_llm.py |
本地终端测试 | python eval_llm.py --weight full_sft |
serve_openai_api.py |
API 服务 | python serve_openai_api.py |
web_demo.py |
Web 聊天界面 | streamlit run web_demo.py |
| ollama | 一键本地部署 | ollama run ikun-2.5B |
| llama.cpp | C++ 高性能推理 | 转 GGUF 后运行 |
| vllm | 高吞吐服务 | vllm serve ikun-2.5B |
PyTorch (.pth)
↓ convert_model.py
HuggingFace (pytorch_model.bin + config.json)
↓ llama.cpp/convert
GGUF (.gguf)
↓
ollama / llama.cpp / vllm
基于 MiniMind 的:
scripts/serve_openai_api.py— FastAPI OpenAI 兼容服务端scripts/web_demo.py— Streamlit 聊天前端scripts/convert_model.py— 格式转换工具
| 精度 | 模型大小 | 速度 | 质量 |
|---|---|---|---|
| float16 | 49MB | 基准 | 最佳 |
| int8 | ~25MB | ×1.5 | 几乎无损 |
| int4 | ~13MB | ×2 | 略有下降 |
| Level | Repo | 学什么 |
|---|---|---|
| 1 | ikun-tokenizer | 分词器原理 |
| 1 | ikun-pretrain | 从零预训练 |
| 1 | ikun-2.5B | SFT + LoRA 微调 |
| 2 | ikun-DPO | 偏好对齐 |
| 2 | ikun-GRPO | 强化学习 |
| 2 | ikun-Reason | 推理模型 |
| 3 | ikun-MoE | 混合专家 |
| 3 | ikun-Distill | 知识蒸馏 |
| 3 | ikun-V | 多模态 |
| 4 | ikun-deploy ← 你在这里 | 部署 |
