GitHub - ikun-llm/ikun-deploy: 模型部署指南 | Deploy to API/Web/ollama/vllm 🚀

ikun-deploy

把练习生送上舞台
_{Level 4 | 工程篇}

从练习室到舞台，ikun 出道指南。

你将学到

模型格式转换：PyTorch → HuggingFace → GGUF
搭建 OpenAI 兼容 API 服务
Streamlit 聊天界面
llama.cpp / ollama / vllm 部署
模型量化（int8/int4）减小体积

部署方式一览

方式	适用场景	命令
`eval_llm.py`	本地终端测试	`python eval_llm.py --weight full_sft`
`serve_openai_api.py`	API 服务	`python serve_openai_api.py`
`web_demo.py`	Web 聊天界面	`streamlit run web_demo.py`
ollama	一键本地部署	`ollama run ikun-2.5B`
llama.cpp	C++ 高性能推理	转 GGUF 后运行
vllm	高吞吐服务	`vllm serve ikun-2.5B`

格式转换流程

PyTorch (.pth)
    ↓ convert_model.py
HuggingFace (pytorch_model.bin + config.json)
    ↓ llama.cpp/convert
GGUF (.gguf)
    ↓
ollama / llama.cpp / vllm

核心代码

基于 MiniMind 的:

scripts/serve_openai_api.py — FastAPI OpenAI 兼容服务端
scripts/web_demo.py — Streamlit 聊天前端
scripts/convert_model.py — 格式转换工具

量化对比

精度	模型大小	速度	质量
float16	49MB	基准	最佳
int8	~25MB	×1.5	几乎无损
int4	~13MB	×2	略有下降

系列导航

Level	Repo	学什么
1	ikun-tokenizer	分词器原理
1	ikun-pretrain	从零预训练
1	ikun-2.5B	SFT + LoRA 微调
2	ikun-DPO	偏好对齐
2	ikun-GRPO	强化学习
2	ikun-Reason	推理模型
3	ikun-MoE	混合专家
3	ikun-Distill	知识蒸馏
3	ikun-V	多模态
4	ikun-deploy ← 你在这里	部署

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ikun-deploy

你将学到

部署方式一览

格式转换流程

核心代码

量化对比

系列导航

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 1

Folders and files

Latest commit

History

Repository files navigation

ikun-deploy

你将学到

部署方式一览

格式转换流程

核心代码

量化对比

系列导航

About

Topics

Resources

Code of conduct

Contributing

Security policy

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 1

Packages