并行策略#
业界SOTA的模型大多超过单机显存能够容纳,主流的大模型推理引擎已全面支持PP/TP/DP/EP等分布式并行推理策略,CT-HPKV 能够无缝适配这些并行策略,无论是 单机还是跨机场景。在保证推理正确性的前提下,显著降低显存占用,提升长序列场景下的吞吐能力。
TP#
张量并行(Tensor Parallelism, TP) 将单个Transformer层内的参数切分到多个 GPU 上,如将注意力头的 Q/K/V 权重、FFN 权重等。对应的KV Cache也按KV头 切分(MLA注意力架构会特殊处理)。
每个TP进程维护自己对应的 KV Cache 分片(TP均分KV头数);
卸载工具可独立对每个分片进行“显存 ↔ 主机内存”的交换,无需跨TP通信;
MLA注意力模型,TP组内的KV Cache重复,CT-HPKV智能卸载完整的一份到内存和存储;
PP#
流水线并行(Pipeline Parallelism, PP)将模型的若干连续层分配到不同 GPU 上,形成微批次流水线。
每个PP阶段只缓存自己负责的层产生的 KV Cache;
CT-HPKV已全面支持模型层数不被PP整除的场景;
支持跨阶段协调,当后阶段需要重新计算前阶段的 KV 时(如激活重算),CT-HPKV自动预取所需KV Cache回显存;
DP#
重要
2026.06.30 即将发布;
EP#
专家并行(Expert Parallelism, EP)通常用于 MoE 模型,将不同的专家网络分配到不同 GPU 上。 KV Cache数据与管理策略主要与注意力架构强相关。在全面支持各 种大模型注意力架构的基础上,MoE也天然支持稀疏模型。
混合并行#
大模型推理场景采用的并行策略通常不会单独出现,混合采用多种并行策略组合,如 TP + PP + EP等,都是常见操作。CT-HPKV会自动获取推理引擎侧的模型配置,识别模 型所使用的并行策略和Rank间的拓扑关系,并自动进行KV Cache卸载策略管理。
混合并行样例如下:
# 配置vLLM启用CT-HPKV
(base) hpkv@ctyunos:~$ export VLLM_ENABLE_HPKV=1
# 配置使用的内存池大小 (8G大小)
(base) hpkv@ctyunos:~$ export HPKV_KV_MEM_POOL_SIZE=8g
# 配置共享内存文件路径
(base) hpkv@ctyunos:~$ export HPKV_SHARE_MEM_FILE_PATH="/mnt/hpkv"
# 配置KV Cache文件存储路径
(base) hpkv@ctyunos:~$ export HPKV_KV_STORAGE_PATH="/mnt/hpkv/storage"
# 启动vLLM
(base) hpkv@ctyunos:~$ vllm serve /mnt/data/models/Qwen/Qwen2.5-7B-Instruct \
--host 0.0.0.0 --port 8505 --trust-remote-code \
--served-model-name qwen2.5-7b --block-size 64 \
--max-num-batched-tokens 8192 \
--tensor-parallel-size 2 \
--pipeline-parallel-size 2 \
--gpu-memory-utilization 0.8 \
--enable-prefix-caching \
--kv-transfer-config '{"kv_connector":"HpkvConnectorV1", "kv_role":"kv_both"}' \
--disable-log-requests
特殊场景#
TP > KV Head#
重要
2026.06.30 即将发布;