并行策略#

业界SOTA的模型大多超过单机显存能够容纳，主流的大模型推理引擎已全面支持PP/TP/DP/EP等分布式并行推理策略，CT-HPKV 能够无缝适配这些并行策略，无论是单机还是跨机场景。在保证推理正确性的前提下，显著降低显存占用，提升长序列场景下的吞吐能力。

TP#

张量并行（Tensor Parallelism, TP）将单个Transformer层内的参数切分到多个 GPU 上，如将注意力头的 Q/K/V 权重、FFN 权重等。对应的KV Cache也按KV头切分(MLA注意力架构会特殊处理)。

每个TP进程维护自己对应的 KV Cache 分片(TP均分KV头数)；
卸载工具可独立对每个分片进行“显存 ↔ 主机内存”的交换，无需跨TP通信；
MLA注意力模型，TP组内的KV Cache重复，CT-HPKV智能卸载完整的一份到内存和存储；

PP#

流水线并行（Pipeline Parallelism, PP）将模型的若干连续层分配到不同 GPU 上，形成微批次流水线。

每个PP阶段只缓存自己负责的层产生的 KV Cache；
CT-HPKV已全面支持模型层数不被PP整除的场景；
支持跨阶段协调，当后阶段需要重新计算前阶段的 KV 时（如激活重算），CT-HPKV自动预取所需KV Cache回显存；

DP#

重要

2026.06.30 即将发布;

EP#

专家并行（Expert Parallelism, EP）通常用于 MoE 模型，将不同的专家网络分配到不同 GPU 上。 KV Cache数据与管理策略主要与注意力架构强相关。在全面支持各种大模型注意力架构的基础上，MoE也天然支持稀疏模型。

混合并行#

大模型推理场景采用的并行策略通常不会单独出现，混合采用多种并行策略组合，如 TP + PP + EP等，都是常见操作。CT-HPKV会自动获取推理引擎侧的模型配置，识别模型所使用的并行策略和Rank间的拓扑关系，并自动进行KV Cache卸载策略管理。

混合并行样例如下：

# 配置vLLM启用CT-HPKV
(base) hpkv@ctyunos:~$ export VLLM_ENABLE_HPKV=1

# 配置使用的内存池大小 (8G大小)
(base) hpkv@ctyunos:~$ export HPKV_KV_MEM_POOL_SIZE=8g

# 配置共享内存文件路径
(base) hpkv@ctyunos:~$ export HPKV_SHARE_MEM_FILE_PATH="/mnt/hpkv"

# 配置KV Cache文件存储路径
(base) hpkv@ctyunos:~$ export HPKV_KV_STORAGE_PATH="/mnt/hpkv/storage"

# 启动vLLM
(base) hpkv@ctyunos:~$ vllm serve /mnt/data/models/Qwen/Qwen2.5-7B-Instruct   \
                    --host 0.0.0.0  --port 8505  --trust-remote-code          \
                    --served-model-name qwen2.5-7b --block-size 64            \
                    --max-num-batched-tokens 8192                             \
                    --tensor-parallel-size 2                                  \
                    --pipeline-parallel-size 2                                \
                    --gpu-memory-utilization 0.8                              \
                    --enable-prefix-caching                                   \
                    --kv-transfer-config '{"kv_connector":"HpkvConnectorV1", "kv_role":"kv_both"}' \
                    --disable-log-requests

特殊场景#

TP > KV Head#

重要

2026.06.30 即将发布;