如果说过去两年AI算力赛道的主角是GPU,那么现在,CPU正在强势“抢戏”。随着AI从训练驱动转向推理驱动,CPU在AI基础设施中的权重不断攀升,CPU:GPU比值持续走高。
英特尔最新白皮书揭示了这一变化的两大核心引擎:推理工作负载的爆发式增长,以及强化学习与仿真系统的加速落地。当Agentic AI成为主流,大模型进入规模化推理阶段,CPU不再是“配角”,而是决定AI系统效率与成本的关键。
推理反超训练,AI 算力结构迎反转
AI 行业的算力投入,正在经历从 “重训练” 到 “重推理” 的根本性转变,这是推高 CPU 需求的首要原因。
过去,AI 发展以模型研发、训练为核心,海量数据的密集线性代数计算让 GPU 成为绝对主力,CPU 仅负责数据加载、简单编排等辅助工作,CPU:GPU 比值维持在低位。但如今,企业纷纷从 AI “实验阶段” 走向 “落地部署阶段”,推理成为算力支出的核心。
推理与训练的算力逻辑截然不同,推理的数据编排与管理对 CPU 有极强依赖 。。如果说训练的核心瓶颈是 GPU 的浮点算力,那么推理的核心瓶颈,早已转移到 CPU 侧的请求处理、编排调度与数据加工。

CPU 在推理流程中扮演着 “空中交通管制员” 的角色:从用户提交请求开始,数据摄入、清洗、转换、批处理、格式转换等全流程核心环节,CPU 占比普遍超过60%,在多个场景下达到100%的峰值 ;即便是 GPU 完成的轻量化推理计算,前后的令牌流处理、KV 缓存的数据调度、检索路由、结果格式化,也全部由 CPU 主导。

行业实测数据更能说明问题:优化后的 GPU 单推理请求计算量极小,而 CPU 的数仓流水线耗时,往往超过 GPU 的前向传播时间;即便是 高端 GPU,搭配以至强6性能核为代表的高性能CPU 后,推理吞吐量也能大幅提升 ——如今,CPU 的编排效率比 GPU 的原始浮点算力,更能决定 AI 推理的实际吞吐量。
更重要的是,Agentic AI 的普及进一步放大了 CPU 的需求。企业正在从 “问答式 AI” 转向 “任务式智能体”,RAG、嵌入搜索、多智能体链、多步工作流成为标配,这些场景需要大量的 CPU 侧逻辑处理;而智能体的 “规划 - 工具使用 - 反思 - 优化” 循环,还能通过 CPU 主导的代码生成 / 沙箱执行,降低对超大参数模型的依赖。优化整个系统层面的算力结构。

An increased CPU:GPU ratio can benefit multi-agent architectures, where execution agents use VMs as sandboxes to execute code[1].
对于云厂商的多租户 GPU 集群而言,GPU 密度越高,对 CPU 的需求就越大 —— 队列管理、安全隔离、MIG 切片分配、资源调度等核心管理工作均由 CPU 完成,增加每 GPU 对应的 CPU 数量,成为避免 GPU 闲置、降低高成本浪费的关键。
强化学习工业化,CPU 成仿真与调度核心
如果说推理增长是 CPU 需求的 “基本盘”,那么强化学习(RL)的工业化落地,就是推动 CPU:GPU 比值走高的 “增量引擎”。
曾经,RL 只是视频游戏领域的小众技术,而如今,随着自动驾驶、机器人、精密医疗、算法交易等领域的发展,RL 已进入复杂 3D 仿真环境的工业化应用阶段,而这一过程,对 CPU 有着极致的需求 ——RL 的核心框架中,环境步进、控制逻辑、搜索、轨迹管理等核心环节,均由 CPU 主导,高保真的仿真环境更是需要海量的 CPU 算力支撑。

Reinforcement learning (RL) framework[2].
从行业应用来看,RL 的落地场景已全面铺开,而这些场景无一例外都依赖 CPU 的大规模支撑:
•自动驾驶与机器人:特斯拉 Autopilot 的实时决策、机器人的灵巧操作,均需在 CARLA、Isaac Gym 等仿真器中完成训练,多智能体场景、传感器管道、物理仿真逻辑均由 CPU 实现;
•工业与金融:供应链路由、电网负荷调节、算法交易、市场仿真等场景,需要 RL 完成序贯决策优化,而并行环境推演、数据处理均依赖 CPU;
•大模型对齐:RLHF(人类反馈强化学习)成为大模型安全对齐的标准方案,奖励评估、采样、GPU 集群编排等工作,进一步增加了 CPU 的调度压力;
•智能体 AI:自改进 AI 智能体的多步规划、工具使用决策框架,将 RL 作为核心基础,让 CPU 成为智能体决策的算力底座。
RL 的训练架构,更是天生决定了 CPU 的核心地位。主流的 RL 架构均采用 “Actor-Learner 分离” 设计:Actor(环境步进、推理调用)负责样本收集,几乎全部运行在 CPU;Learner(优化器更新)负责梯度计算,运行在 GPU / 加速器。无论是 IMPALA 架构的数千台 CPU 并行收集经验,还是 Ray RLlib 为每个 EnvRunner 显式分配 CPU 资源,亦或是 AlphaZero 的蒙特卡洛树搜索(MCTS)在 CPU 上的大规模并行推演, CPU都决定了RL 过程的性能上限 。
而随着 RL 环境的复杂度不断提升 —— 高保真物理仿真、多传感器融合、多智能体协作,CPU 的需求还在持续攀升:CPU 的核心数和内存直接决定了并行仿真环境的数量,在 PPO 等主流 RL 算法中,CPU 的仿真速率主导了整体的吞吐,GPU 仅负责后续的梯度更新。
不是 GPU 失宠,而是 AI 基建走向协同
CPU:GPU 比值走高,并非意味着 GPU 的核心地位被削弱,更不是“此消彼长”的零和博弈。恰恰相反,这是 AI 基础设施从“单维算力堆叠”走向“系统级协同优化”的必然结果。
GPU 依然是 AI 计算中密集浮点运算的绝对核心。但新一代 GPU 架构(NVIDIA、AMD、英特尔)对 CPUGPU 之间的协同效率提出了更高要求——糟糕的协调会直接导致延迟飙升、GPU 空转。与此同时,AI 数据中心的千兆瓦级功耗压力,也让“通过 CPU 优化 GPU 利用率”成为刚需。扩展 CPU(尤其是英特尔至强6这类高能效、高带宽处理器)比单纯增加 GPU 更节能:将数据预处理、调度、编排等辅助任务卸载到 CPU,能显著减少 GPU 空闲时间,大幅提升单位 token 的能效,缓解数据中心的能源与冷却压力。
如今的 AI 系统,早已不是“GPU 单独发力”的时代:
超大规模 GPU 集群的互连协调、分布式调度,需要 CPU 完成;
Agentic AI 的多阶段流水线、复杂编排,需要 CPU 支撑;
强化学习的工业化仿真、并行推演,更需要 CPU 主导。
对于企业和云厂商而言,未来的 AI 基建规划,必须将 CPU 作为优化成本、性能、能效的第一等考量因素—— 不再是简单的 “配多少 GPU”,而是 “如何通过 CPU与GPU的联动与优化,让 GPU 的价值最大化”。
[1].Figure 1 is adapted from"From Mind to Machine: The Rise of Manus Al as a Fully Autonomous Digital Agent" by Minjie Shen et al,used under CC BY 4.0.
[2].Figure 2 is adapted from the following source: Nikolopoulou, K. (August 15, 2023).Easy Introduction to Reinforcement Learning. Scribbr.


