v2.0.0#

  • vLLM v0.18.0支持;

  • vLLM-Ascend v0.18.0支持;


v2.0.0rc2#

  • 新增vLLM v0.13.0 PD分离支持;

  • 新增vLLM v0.13.0支持推测解码支持;

  • 新增vLLM PP大小不均分模型层数;

  • 支持CT-HPKV词元各级KV Cache命中(率)指标统计;

  • 新增SGLang v0.5.7 GPU/NPU支持;


v2.0.0rc1#

  • 重构CT-HPKV C++侧项目架构;

  • CT-HPKV与推理引擎解耦;

  • 支持TP跨机与TP异构;

  • 支持KV Cache Event上报实现KV Cache感知调度;

  • vLLM v0.13.0支持;

  • vLLM-Ascend v0.13.0支持;