服务模式#
分布式 LLM 服务模式的架构文档。
概述#
Ray Serve LLM 支持多种服务模式,这些模式可以组合以实现复杂的部署场景
数据并行注意力:通过运行多个协调的引擎实例来扩展吞吐量,这些实例会在注意力层之间分片请求。
预填充-解码分离:通过将提示处理与 token 生成分开来优化资源利用率。
这些模式是可组合的,可以混合以满足吞吐量、延迟和成本优化方面的特定要求。
uv 进行 Python 包管理分布式 LLM 服务模式的架构文档。
Ray Serve LLM 支持多种服务模式,这些模式可以组合以实现复杂的部署场景
数据并行注意力:通过运行多个协调的引擎实例来扩展吞吐量,这些实例会在注意力层之间分片请求。
预填充-解码分离:通过将提示处理与 token 生成分开来优化资源利用率。
这些模式是可组合的,可以混合以满足吞吐量、延迟和成本优化方面的特定要求。