Skip to content

ikun-llm/ikun-deploy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 

ikun-deploy

把练习生送上舞台
Level 4 | 工程篇


从练习室到舞台,ikun 出道指南。

你将学到

  • 模型格式转换:PyTorch → HuggingFace → GGUF
  • 搭建 OpenAI 兼容 API 服务
  • Streamlit 聊天界面
  • llama.cpp / ollama / vllm 部署
  • 模型量化(int8/int4)减小体积

部署方式一览

方式 适用场景 命令
eval_llm.py 本地终端测试 python eval_llm.py --weight full_sft
serve_openai_api.py API 服务 python serve_openai_api.py
web_demo.py Web 聊天界面 streamlit run web_demo.py
ollama 一键本地部署 ollama run ikun-2.5B
llama.cpp C++ 高性能推理 转 GGUF 后运行
vllm 高吞吐服务 vllm serve ikun-2.5B

格式转换流程

PyTorch (.pth)
    ↓ convert_model.py
HuggingFace (pytorch_model.bin + config.json)
    ↓ llama.cpp/convert
GGUF (.gguf)
    ↓
ollama / llama.cpp / vllm

核心代码

基于 MiniMind 的:

  • scripts/serve_openai_api.py — FastAPI OpenAI 兼容服务端
  • scripts/web_demo.py — Streamlit 聊天前端
  • scripts/convert_model.py — 格式转换工具

量化对比

精度 模型大小 速度 质量
float16 49MB 基准 最佳
int8 ~25MB ×1.5 几乎无损
int4 ~13MB ×2 略有下降

系列导航

Level Repo 学什么
1 ikun-tokenizer 分词器原理
1 ikun-pretrain 从零预训练
1 ikun-2.5B SFT + LoRA 微调
2 ikun-DPO 偏好对齐
2 ikun-GRPO 强化学习
2 ikun-Reason 推理模型
3 ikun-MoE 混合专家
3 ikun-Distill 知识蒸馏
3 ikun-V 多模态
4 ikun-deploy ← 你在这里 部署

About

模型部署指南 | Deploy to API/Web/ollama/vllm 🚀

Topics

Resources

Code of conduct

Contributing

Security policy

Stars

Watchers

Forks

Releases

No releases published

Packages