Mooncake是一款由Moonshot AI开发的先进大型语言模型(LLM)服务平台。它采用了独特的KVCache为中心的解耦架构,通过分离预填充和解码集群,并充分利用GPU集群的资源,实现了高效的KVCache解耦缓存。Mooncake的核心优势在于其KVCache中心调度器,能够在保证延迟SLOs的同时最大化吞吐量。该平台特别适合处理长上下文场景,在某些模拟环境中吞吐量提升可达525%。Mooncake主要面向需要高性能LLM服务的企业和开发者,特别适用于智能客服、自然语言处理和大规模数据分析等领域。通过其创新架构,Mooncake能够帮助用户更高效地处理复杂查询,提升响应速度和准确性,从而显著提高数据处理能力和业务效率。