架构调度加速 ¶
约 74 个字 预计阅读时间不到 1 分钟
Prefix Caching¶
KV Cache 的跨请求复用
是 prefill 阶段的优化策略
Chunked Prefill¶
基于 chunked prefill 理解 prefill 和 decode 的计算特性 - 知乎
ai-infra-learning/lesson/05-chunked-prefills at main · cr7258/ai-infra-learning
约 74 个字 预计阅读时间不到 1 分钟
KV Cache 的跨请求复用
是 prefill 阶段的优化策略
基于 chunked prefill 理解 prefill 和 decode 的计算特性 - 知乎
ai-infra-learning/lesson/05-chunked-prefills at main · cr7258/ai-infra-learning