Skip to content

dinobot22/qwen3_reranker_vllm_deploy

Repository files navigation

Qwen3-Reranker vLLM 部署与使用指南

本仓库旨在记录和分享 Qwen3-Reranker 模型使用 vLLM 进行 OpenAI-compatible API 部署的详细步骤。

1. deploy_bash.bash

在终端直接运行该脚本即可启动服务(需根据实际路径修改模型地址):

bash deploy_bash.bash

启动成功后,服务默认监听 http://127.0.0.1:17990

2. offline_use_vllm.py

作用: 使用 vLLM Python SDK 进行离线推理的示例。

  • 使用方法:
    python offline_use_vllm.py

3. online_use_vllm_with_template.py (推荐)

作用: 通过 HTTP 请求调用已部署 API 的示例,包含正确的 prompt 模板。

  • 性能测试表明,该方式与离线推理性能一致。
  • 使用方法: 确保服务已通过 deploy_bash.bash 启动,然后运行:
    python online_use_vllm_with_template.py

4. online_use_vllm_without_template.py (反面示例)

作用: 通过 HTTP 请求调用 API,但不使用 prompt 模板。

  • 使用方法:
    python online_use_vllm_without_template.py

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors