vLLM是一个开源的大语言模型推理和服务引擎,提供高吞吐量和低延迟的推理能力,支持Transformer架构模型的高效部署和扩展。
vLLM 是一个专为大型语言模型设计的高吞吐量和内存高效推理与服务引擎。
返回顶部