本仓库旨在记录和分享 Qwen3-Reranker 模型使用 vLLM 进行 OpenAI-compatible API 部署的详细步骤。
在终端直接运行该脚本即可启动服务(需根据实际路径修改模型地址):
bash deploy_bash.bash启动成功后,服务默认监听 http://127.0.0.1:17990。
作用: 使用 vLLM Python SDK 进行离线推理的示例。
- 使用方法:
python offline_use_vllm.py
作用: 通过 HTTP 请求调用已部署 API 的示例,包含正确的 prompt 模板。
- 性能测试表明,该方式与离线推理性能一致。
- 使用方法:
确保服务已通过
deploy_bash.bash启动,然后运行:python online_use_vllm_with_template.py
作用: 通过 HTTP 请求调用 API,但不使用 prompt 模板。
- 使用方法:
python online_use_vllm_without_template.py