免费试用 Ray，获赠 $100 信用额度 — 立即开始

服务模式#

分布式 LLM 服务模式的架构文档。

概述#

Ray Serve LLM 支持多种服务模式，这些模式可以组合以实现复杂的部署场景

数据并行注意力：通过运行多个协调的引擎实例来扩展吞吐量，这些实例会在注意力层之间分片请求。
预填充-解码分离：通过将提示处理与 token 生成分开来优化资源利用率。

这些模式是可组合的，可以混合以满足吞吐量、延迟和成本优化方面的特定要求。