服务模式#

分布式 LLM 服务模式的架构文档。

概述#

Ray Serve LLM 支持多种服务模式,这些模式可以组合以实现复杂的部署场景

  • 数据并行注意力:通过运行多个协调的引擎实例来扩展吞吐量,这些实例会在注意力层之间分片请求。

  • 预填充-解码分离:通过将提示处理与 token 生成分开来优化资源利用率。

这些模式是可组合的,可以混合以满足吞吐量、延迟和成本优化方面的特定要求。