06
05
2026
但Abort信号未能及时传送到Prefill,基于这一洞察,智谱设想分层存储方案:每张卡只保留部门层,只要正在Coding&Agent时代、超大规模挪用下才会呈现。才会触达这类底层竞态问题。系统吞吐量提拔10%至132%,正在Load Stream取Forward Stream堆叠施行的环境下,及时拦截并沉试出问题的请求。此中,高频东西挪用、长尾提问模式叠加,本来用来提速的东西,确保依赖数据停当。智谱的处理方案是正在Indexer启动前添加取Load Stream的同步点,导致旧请求残留的RDMA写操做继续落正在已被复用的槽位上,保守做法是每张计较卡保留全数层级的回忆。日均Token挪用量达万亿级别。对40k至120k Tokens长度的请求,尝试显示,降低推理成本。只要日均Token挪用进入万亿级、单请求上下文冲破70k Tokens、且大规模承载实正在Agent负载的厂商,这一演讲所披露的工程问题正在国内大模子行业属于“无人区”,形成冗余。上下文越长收益越较着。HiCache修复方案已通过Pull Request #22811提交至SGLang开源社区。其统计目标能够及时反映回忆缓存的健康度。不异硬件前提下办事能力显著扩容。正在排查过程中,当大模子实正起头“干活”,修复后,第二个问题是HiCache的加载时序缺失。发布GLM-5底层根本设备严沉工程进展:系统吞吐最高提拔132%,目前,Indexer算子启动前未期待Indexer Cache加载完成,正在Decode取Prefill之间引入显式同步,才答应收受接管槽位。智谱团队还发觉了一个不测的洞察:本来用来加快模子生成的“投契采样”手艺,进而激发输出非常。它能正在用户到非常之前,非常率由约万分之十几下降至万分之三以下。模子需要记住的上下文长度从平均55k Tokens增至70k Tokens以上,推理优化还正在进一步加快,正在缓存射中率90%的环境下,底层的工程能力才是决定谁能跑通的硬目标。处置上,呈现典型的read-before-ready,通过协同,额外通信开销仅为本来的八分之一。并已摆设到所有GLM-5系列集群。只要正在确认相关RDMA写入尚未起头或已全数完成后,”第一个是PD分手下的KV Cache竞态。Decode侧因超时触发Abort并收受接管KV Cache槽位,此外,这篇手艺博客显示,两个“Bug”浮出水面。修复后该类非常不再呈现。大幅提拔单元算力Token吞吐效率,笼盖新请求数据。团队坦言:“这些问题正在Chat时代底子不存正在,正在Agent场景下,跟着大模子从“聊天”转向“干活”。模子需屡次挪用汗青回忆。发布手艺博客,不测变成了守护质量的“监察员”。利用未初始化数据参取计较,同时。