AI推理爆发背后：英特尔解读CPU权重为何持续提升

如果说过去两年AI算力赛道的主角是GPU，那么现在，CPU正在强势“抢戏”。随着AI从训练驱动转向推理驱动，CPU在AI基础设施中的权重不断攀升，CPU:GPU比值持续走高。

英特尔最新白皮书揭示了这一变化的两大核心引擎：推理工作负载的爆发式增长，以及强化学习与仿真系统的加速落地。当Agentic AI成为主流，大模型进入规模化推理阶段，CPU不再是“配角”，而是决定AI系统效率与成本的关键。

推理反超训练，AI 算力结构迎反转

AI 行业的算力投入，正在经历从 “重训练” 到 “重推理” 的根本性转变，这是推高 CPU 需求的首要原因。

过去，AI 发展以模型研发、训练为核心，海量数据的密集线性代数计算让 GPU 成为绝对主力，CPU 仅负责数据加载、简单编排等辅助工作，CPU:GPU 比值维持在低位。但如今，企业纷纷从 AI “实验阶段” 走向 “落地部署阶段”，推理成为算力支出的核心。

推理与训练的算力逻辑截然不同，推理的数据编排与管理对 CPU 有极强依赖。。如果说训练的核心瓶颈是 GPU 的浮点算力，那么推理的核心瓶颈，早已转移到 CPU 侧的请求处理、编排调度与数据加工。

CPU 在推理流程中扮演着 “空中交通管制员” 的角色：从用户提交请求开始，数据摄入、清洗、转换、批处理、格式转换等全流程核心环节，CPU 占比普遍超过60%，在多个场景下达到100%的峰值；即便是 GPU 完成的轻量化推理计算，前后的令牌流处理、KV 缓存的数据调度、检索路由、结果格式化，也全部由 CPU 主导。

行业实测数据更能说明问题：优化后的 GPU 单推理请求计算量极小，而 CPU 的数仓流水线耗时，往往超过 GPU 的前向传播时间；即便是高端 GPU，搭配以至强6性能核为代表的高性能CPU 后，推理吞吐量也能大幅提升 ——如今，CPU 的编排效率比 GPU 的原始浮点算力，更能决定 AI 推理的实际吞吐量。

更重要的是，Agentic AI 的普及进一步放大了 CPU 的需求。企业正在从 “问答式 AI” 转向 “任务式智能体”，RAG、嵌入搜索、多智能体链、多步工作流成为标配，这些场景需要大量的 CPU 侧逻辑处理；而智能体的 “规划 - 工具使用 - 反思 - 优化” 循环，还能通过 CPU 主导的代码生成 / 沙箱执行，降低对超大参数模型的依赖。优化整个系统层面的算力结构。

An increased CPU:GPU ratio can benefit multi-agent architectures, where execution agents use VMs as sandboxes to execute code[1].

对于云厂商的多租户 GPU 集群而言，GPU 密度越高，对 CPU 的需求就越大 —— 队列管理、安全隔离、MIG 切片分配、资源调度等核心管理工作均由 CPU 完成，增加每 GPU 对应的 CPU 数量，成为避免 GPU 闲置、降低高成本浪费的关键。

强化学习工业化，CPU 成仿真与调度核心

如果说推理增长是 CPU 需求的 “基本盘”，那么强化学习（RL）的工业化落地，就是推动 CPU:GPU 比值走高的 “增量引擎”。

曾经，RL 只是视频游戏领域的小众技术，而如今，随着自动驾驶、机器人、精密医疗、算法交易等领域的发展，RL 已进入复杂 3D 仿真环境的工业化应用阶段，而这一过程，对 CPU 有着极致的需求 ——RL 的核心框架中，环境步进、控制逻辑、搜索、轨迹管理等核心环节，均由 CPU 主导，高保真的仿真环境更是需要海量的 CPU 算力支撑。

Reinforcement learning (RL) framework[2].

从行业应用来看，RL 的落地场景已全面铺开，而这些场景无一例外都依赖 CPU 的大规模支撑：

•自动驾驶与机器人：特斯拉 Autopilot 的实时决策、机器人的灵巧操作，均需在 CARLA、Isaac Gym 等仿真器中完成训练，多智能体场景、传感器管道、物理仿真逻辑均由 CPU 实现；

•工业与金融：供应链路由、电网负荷调节、算法交易、市场仿真等场景，需要 RL 完成序贯决策优化，而并行环境推演、数据处理均依赖 CPU；

•大模型对齐：RLHF（人类反馈强化学习）成为大模型安全对齐的标准方案，奖励评估、采样、GPU 集群编排等工作，进一步增加了 CPU 的调度压力；

•智能体 AI：自改进 AI 智能体的多步规划、工具使用决策框架，将 RL 作为核心基础，让 CPU 成为智能体决策的算力底座。

RL 的训练架构，更是天生决定了 CPU 的核心地位。主流的 RL 架构均采用 “Actor-Learner 分离” 设计：Actor（环境步进、推理调用）负责样本收集，几乎全部运行在 CPU；Learner（优化器更新）负责梯度计算，运行在 GPU / 加速器。无论是 IMPALA 架构的数千台 CPU 并行收集经验，还是 Ray RLlib 为每个 EnvRunner 显式分配 CPU 资源，亦或是 AlphaZero 的蒙特卡洛树搜索（MCTS）在 CPU 上的大规模并行推演， CPU都决定了RL 过程的性能上限。

而随着 RL 环境的复杂度不断提升 —— 高保真物理仿真、多传感器融合、多智能体协作，CPU 的需求还在持续攀升：CPU 的核心数和内存直接决定了并行仿真环境的数量，在 PPO 等主流 RL 算法中，CPU 的仿真速率主导了整体的吞吐，GPU 仅负责后续的梯度更新。

不是 GPU 失宠，而是 AI 基建走向协同

CPU:GPU 比值走高，并非意味着 GPU 的核心地位被削弱，更不是“此消彼长”的零和博弈。恰恰相反，这是 AI 基础设施从“单维算力堆叠”走向“系统级协同优化”的必然结果。

GPU 依然是 AI 计算中密集浮点运算的绝对核心。但新一代 GPU 架构（NVIDIA、AMD、英特尔）对 CPUGPU 之间的协同效率提出了更高要求——糟糕的协调会直接导致延迟飙升、GPU 空转。与此同时，AI 数据中心的千兆瓦级功耗压力，也让“通过 CPU 优化 GPU 利用率”成为刚需。扩展 CPU（尤其是英特尔至强6这类高能效、高带宽处理器）比单纯增加 GPU 更节能：将数据预处理、调度、编排等辅助任务卸载到 CPU，能显著减少 GPU 空闲时间，大幅提升单位 token 的能效，缓解数据中心的能源与冷却压力。

如今的 AI 系统，早已不是“GPU 单独发力”的时代：

超大规模 GPU 集群的互连协调、分布式调度，需要 CPU 完成；

Agentic AI 的多阶段流水线、复杂编排，需要 CPU 支撑；

强化学习的工业化仿真、并行推演，更需要 CPU 主导。

对于企业和云厂商而言，未来的 AI 基建规划，必须将 CPU 作为优化成本、性能、能效的第一等考量因素—— 不再是简单的 “配多少 GPU”，而是 “如何通过 CPU与GPU的联动与优化，让 GPU 的价值最大化”。

[1].Figure 1 is adapted from"From Mind to Machine: The Rise of Manus Al as a Fully Autonomous Digital Agent" by Minjie Shen et al,used under CC BY 4.0.

[2].Figure 2 is adapted from the following source: Nikolopoulou, K. (August 15, 2023).Easy Introduction to Reinforcement Learning. Scribbr.