【CNMO科技音讯】近来,华为数据存储与DaoCloud道客联合宣告,正式推出AI推理加快联合解决计划。该计划交融了华为UCM(Unified Cache Manager)推理回忆数据办理技能和道客d.run算力调度渠道,旨在经过资源的精细化办理和智能调度提高算力利用率。
生态兼容:支撑渠道、核算和存储联动,适配英伟达、华为昇腾等多元AI算力,支撑TensorFlow/vLLM/SGLang等干流AI结构,凭借Kubernetes可无缝对接华为OceanStor A系列存储。
推理加快:经过耐久化KV Cache到华为OceanStor A系列存储,完成推理回忆常识全量保存,防止重复核算;交融Prefix Cache、Training-free稀少等加快算法,下降首Token时延,倍数级提高长序列推理吞吐与体会。
高效算力:算力资源细粒度切分及池化,按需调度,完成资源利用率最大化;调度器具有拓扑感知才能,优化使命在xPU间的通讯功率,保证AI练习与推理使命安稳低耗运转。
极简运维:供给多租户阻隔、资源配额办理、完好的监控告警及计费计量等功能,满意企业级运用与运维需求。
在问答帮手场景中,经实测验证,该联合解决计划选用Prefix Cache算法,将首Token时延下降55%,且跟着序列长度越长,TTFT下降作用越显着。在长文档推理场景中,计划选用稀少化处理,32K序列完成推理吞吐量提高75%,提高推理性价比。



