Benchmarks#
LLM 服务中的性能很大程度上取决于您的具体工作负载特征和硬件堆栈。从 Ray Serve 的角度来看,重点在于编排开销和 serving 模式实现的有效性。Ray 团队维护着 ray-serve-llm-perf-examples 仓库,其中包含基准测试快照、工具和经验教训。这些基准测试验证了不同 serving 模式的正确性和有效性。您可以使用这些基准测试来更系统地验证您的生产堆栈。
Replica Startup Latency#
涉及大型模型的 Replica 启动时间可能会很慢,导致自动扩缩容缓慢以及对不断变化的工作负载响应不佳。有关 Replica 启动的实验可以在 这里 找到。这些实验说明了 本指南 中提到的各种技术的影响,主要针对模型加载和 Torch Compile 的延迟成本。随着模型的增大,这些优化的效果也越来越明显。例如,在 Qwen/Qwen3-235B-A22B 上,我们将延迟降低了近 3.88 倍。