服务 LLM#

Ray Serve LLM 提供了一个高性能、可扩展的框架,用于在生产环境中部署大型语言模型 (LLM)。它专为分布式 LLM 服务工作负载优化了 Ray Serve 的原始组件,并提供企业级功能,同时兼容 OpenAI API。

为什么选择 Ray Serve LLM?#

Ray Serve LLM 在高度分布式的多节点推理工作负载方面表现出色

  • 高级并行策略:无缝结合管道并行、张量并行、专家并行和数据并行注意力,以支持任何大小的模型。

  • Prefill-decode 分离:独立分离和优化 prefill 和 decode 阶段,以实现更好的资源利用率和成本效益。

  • 自定义请求路由:实现基于前缀、基于会话或自定义的路由逻辑,以最大化缓存命中率并降低延迟。

  • 多节点部署:通过自动放置和协调,服务于跨越多个节点的庞大模型。

  • 生产级功能:内置自动缩放、监控、容错和可观测性。

功能#

  • ⚡️ 自动缩放和负载均衡

  • 🌐 统一的多节点、多模型部署

  • 🔌 兼容 OpenAI 的 API

  • 🔄 支持多 LoRA,共享基础模型

  • 🚀 与引擎无关的架构 (vLLM, SGLang 等)

  • 📊 内置指标和 Grafana 仪表板

  • 🎯 高级服务模式 (PD 分离、数据并行注意力)

要求#

pip install ray[serve,llm]

下一步#