探索NVIDIA TensorRT-LLM如何通过优化大语言模型推理,显著提升性能并降低延迟,为生成式AI和高吞吐量应用提供强大动力。
TensorRT-LLM 是 NVIDIA 推出的高性能深度学习推理库,专为大语言模型优化,提供详细的文档和开发指南。
返回顶部