v2.0.0#
vLLM v0.18.0支持;
vLLM-Ascend v0.18.0支持;
v2.0.0rc2#
新增vLLM v0.13.0 PD分离支持;
新增vLLM v0.13.0支持推测解码支持;
新增vLLM PP大小不均分模型层数;
支持CT-HPKV词元各级KV Cache命中(率)指标统计;
新增SGLang v0.5.7 GPU/NPU支持;
v2.0.0rc1#
重构CT-HPKV C++侧项目架构;
CT-HPKV与推理引擎解耦;
支持TP跨机与TP异构;
支持KV Cache Event上报实现KV Cache感知调度;
vLLM v0.13.0支持;
vLLM-Ascend v0.13.0支持;