并行策略#

业界SOTA的模型大多超过单机显存能够容纳,主流的大模型推理引擎已全面支持PP/TP/DP/EP等分布式并行推理策略,CT-HPKV 能够无缝适配这些并行策略,无论是 单机还是跨机场景。在保证推理正确性的前提下,显著降低显存占用,提升长序列场景下的吞吐能力。

TP#

张量并行(Tensor Parallelism, TP) 将单个Transformer层内的参数切分到多个 GPU 上,如将注意力头的 Q/K/V 权重、FFN 权重等。对应的KV Cache也按KV头 切分(MLA注意力架构会特殊处理)。

  • 每个TP进程维护自己对应的 KV Cache 分片(TP均分KV头数);

  • 卸载工具可独立对每个分片进行“显存 ↔ 主机内存”的交换,无需跨TP通信;

  • MLA注意力模型,TP组内的KV Cache重复,CT-HPKV智能卸载完整的一份到内存和存储;

PP#

流水线并行(Pipeline Parallelism, PP)将模型的若干连续层分配到不同 GPU 上,形成微批次流水线。

  • 每个PP阶段只缓存自己负责的层产生的 KV Cache;

  • CT-HPKV已全面支持模型层数不被PP整除的场景;

  • 支持跨阶段协调,当后阶段需要重新计算前阶段的 KV 时(如激活重算),CT-HPKV自动预取所需KV Cache回显存;

DP#

重要

  • 2026.06.30 即将发布;

EP#

专家并行(Expert Parallelism, EP)通常用于 MoE 模型,将不同的专家网络分配到不同 GPU 上。 KV Cache数据与管理策略主要与注意力架构强相关。在全面支持各 种大模型注意力架构的基础上,MoE也天然支持稀疏模型。

混合并行#

大模型推理场景采用的并行策略通常不会单独出现,混合采用多种并行策略组合,如 TP + PP + EP等,都是常见操作。CT-HPKV会自动获取推理引擎侧的模型配置,识别模 型所使用的并行策略和Rank间的拓扑关系,并自动进行KV Cache卸载策略管理。

混合并行样例如下:

# 配置vLLM启用CT-HPKV
(base) hpkv@ctyunos:~$ export VLLM_ENABLE_HPKV=1

# 配置使用的内存池大小 (8G大小)
(base) hpkv@ctyunos:~$ export HPKV_KV_MEM_POOL_SIZE=8g

# 配置共享内存文件路径
(base) hpkv@ctyunos:~$ export HPKV_SHARE_MEM_FILE_PATH="/mnt/hpkv"

# 配置KV Cache文件存储路径
(base) hpkv@ctyunos:~$ export HPKV_KV_STORAGE_PATH="/mnt/hpkv/storage"

# 启动vLLM
(base) hpkv@ctyunos:~$ vllm serve /mnt/data/models/Qwen/Qwen2.5-7B-Instruct   \
                    --host 0.0.0.0  --port 8505  --trust-remote-code          \
                    --served-model-name qwen2.5-7b --block-size 64            \
                    --max-num-batched-tokens 8192                             \
                    --tensor-parallel-size 2                                  \
                    --pipeline-parallel-size 2                                \
                    --gpu-memory-utilization 0.8                              \
                    --enable-prefix-caching                                   \
                    --kv-transfer-config '{"kv_connector":"HpkvConnectorV1", "kv_role":"kv_both"}' \
                    --disable-log-requests

特殊场景#

TP > KV Head#

重要

  • 2026.06.30 即将发布;