how to use a local LLM to evaluate prediction quality? For example, Llama-3-70B-Instruct?

### Feature request  / 功能建议

how to use a local LLM to evaluate prediction quality? For example, Llama-3-70B-Instruct?

### Motivation / 动机

how to use a local LLM to evaluate prediction quality? For example, Llama-3-70B-Instruct?

### Your contribution / 您的贡献

how to use a local LLM to evaluate prediction quality? For example, Llama-3-70B-Instruct?