跳转至

架构调度加速

74 个字 预计阅读时间不到 1 分钟

Prefix Caching

KV Cache 的跨请求复用

prefill 阶段的优化策略

Chunked Prefill

基于 chunked prefill 理解 prefill decode 的计算特性 - 知乎

ai-infra-learning/lesson/05-chunked-prefills at main · cr7258/ai-infra-learning

Continuous Batching

PD 分离架构

FastChat 负载均衡

Acknowledgement