2026年,随着OpenClaw破圈、GTC大会的落幕,AI产业正迎来“拐点时刻”,一场如同“Transformer”一样的“范式革命”随时都有可能发生,给产业格局带来新的变化。作为聚焦AI计算、云计算的高性能服务器CPU公司,遇贤时刻关注行业发展与技术演进趋势。本文基于产业观察与技术理解,从产业视角出发,重点探讨服务器CPU在Agent时代承担的新使命,意在抛砖引玉,期待与业界同仁共同探讨
服务器CPU在以往AI计算中主要承担任务调度、数据搬运等基础工作,随着产业的深化与演进,服务器CPU在此轮AI的发展中也迎来了新的长期发展机遇,实现了重大的产业逻辑的转变,主要包括以下两个方向:
(1)AI推理:传统大模型依赖GPU来完成海量知识的存储与查找,其中约80%的知识为静态知识,占用了大量的GPU显存,挤压了GPU用来做深度推理的空间,拉高了AI部署的成本。新一代国产大模型通过将静态知识从GPU显存转移到CPU内存中,释放了 GPU的算力使其专注于动态推理,提升了模型性能,同时可以用远少于过去的GPU数量来部署相同或者更大容量的模型,从硬件成本源头实现了AI部署的普惠化。
(2)AI Agent:AI正在加速向智能体(Agent)转变,需要处理大量的强依赖CPU的“控制密集型任务”,且需要在CPU中创建“沙箱环境”来让Agent闭环执行任务操作。因此,Agent对CPU在AI中的角色定位、需求量和性能提出了更高的要求,并且Agent对CPU的需求量影响不是线性的,而是乘数级甚至指数级的爆发。
2026年1月13日,DeepSeek发表新论文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》。该论文提出了全新的Engram模块,将占模型80%参数容量的静态知识从GPU显存中转移到 CPU 内存中,该架构创新不仅通过重构CPU的角色定位提升了模型在多个标准测试中的性能,而且能够极大的降低AI计算成本。该改动将是下一代模型中不可或缺的建模部分。
在传统大模型架构中,CPU仅承担数据传输、任务调度等基础工作,核心的知识存储与推理计算全由GPU包揽,导致 CPU 的算力与内存资源被严重闲置。而 DeepSeek V4 通过Engram模块,重构了CPU的角色定位,让CPU成为静态知识的存储与检索中枢,同时激活了CPU在大规模数据存储与高效检索上的天然优势。
(1)现有大模型的难题
现有的Transformer缺少原生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。具体来讲,现有的模型在识别一个实体时,需要消耗多层注意力与前馈网络,逐层拼凑特征,最终才能正确识别语义。论文中引用了一个具体案例:“Diana, Princess of Wale”,模型需要经过6层才能完成这个识别过程,前几层还在纠结“Wales 是英国的一个地区”、“Princess of Wales是某种头衔”这些中间状态,最终才能“想起来”这是指戴安娜王妃。
这种运算方式主要存在以下两点局限:
1)本质是在重建一个静态查找表,“计算”的速度不仅效率低下,而且将本可以用在更高层推理的深度网络被浪费在识别概念这种相对“低廉”的工作上,挤占了深度推理的空间。
2)大模型中存在大量“静态知识”,这些知识类似于只读百科全书,在推理时主要是被“查阅”,而非参与复杂的动态计算。传统模型中,静态知识存放在GPU的显存之中,也会挤占动态计算模型的显存空间,限制模型能力的提升。
(2)架构的创新
大模型中存在大量可剥离的静态知识,在推理时主要是被“查阅”,而非参与复杂的动态计算,将它们从GPU分离到CPU能带来巨大的优化收益。DeepSeek团队在原有的Transformer层之间插入Engram模块,该模块存储于CPU的内存之中,而非GPU的显存。Engram模块可以理解为一个巨大的、可扩展的嵌入表(Embedding Table),专门负责存储静态知识,通常为高频的实体、固定的模式或常识,这些知识在推理时需要的不是被GPU计算而是直接由CPU读取。同样的例子,“Diana, Princess of Wale”,模型可以通过查找CPU中的Engram模块直接找到“Diana”的正确释义,而不用对整个句子进行推理。
因此,海量参数的静态知识从GPU的显存转移到CPU的DRAM之中,原本被静态知识占用的显存被释放,可以用于装载更大的动态计算模型(例如更复杂的MOE专家或更深的网络层),从而直接提升模型能力上限。
将海量参数的静态知识从GPU的显存转移到CPU的DRAM之中
02
传统千亿参数大模型依赖多张GPU,本质是需要GPU的高容量显存承载海量静态知识。且随着大模型参数的不断增加,HBM容量成为制约大模型规模提升的显著瓶颈,不断扩大HBM容量极大地增加了AI的部署成本。
DeepSeek V4通过Engram架构创新,可以把千亿参数的Engram词表,从GPU的显存中直接卸载到便宜、量大、易扩展的“CPU 内存(DRAM)”里进行查询。DeepSeek实测数据显示:即使挂载了100B(千亿)参数的Engram表到CPU内存,相比于纯GPU推理,吞吐量的下降不到3%。此外,CPU 还能联动SSD存储 ,进一步降低高频内存的占用压力,形成“CPU内存+ SSD”的分层存储体系,从硬件成本源头实现了AI部署的普惠化。
因此,CPU在DeepSeek V4中的核心应用,正在打破AI行业对GPU的绝对依赖,极有可能重塑整个AI基础设施的竞争格局。
角色定位:CPU在大模型中的角色定位从“边缘辅助”转移到“存储与检索”,发挥的作用越来越大,同时也对CPU的性能提出了更高的要求。
成本:CPU内存同样能够支撑大模型的运行,且成本方案仅为纯GPU方案的1/10。
技术落地:CPU的通用性让AI基础设施能够摆脱“高端GPU”绑定,普通服务器也能成为AI部署节点,降低AI技术的落地门槛。
AI Agent的迅猛发展,正推动服务器CPU作为核心算力引擎的重要性提升与需求量激增。根据Gartner数据预测,2026年40%的企业应用将嵌入任务型AI智能体,而这一比例在2025年还不足5%。Agent的爆发标志着AI从“内容生成”向“任务执行”的范式转变。这种转变并非简单的线性增长,而是对算力结构提出了全新的要求,核心逻辑在于:Agent的运行机制高度依赖复杂的逻辑编排和独立的沙箱环境(Sandbox),这两者均为CPU密集型任务,而非GPU擅长的并行计算任务, 这一结构性变化导致服务器CPU需求激增。
Chatbot与AI Agent工作路径与计算执行的区别

区别于传统Chatbot,Agent系统工作路径高度依赖CPU。虽然AI已经历了爆发性的发展,但目前AI的主要表现形式仍然以Chatbot为主(LLM),工作路径为“用户输入-推理-输出”的单次路径,主要的瓶颈在GPU的算力与内存。而为实现“任务的执行”,AI Agent需要完成复杂的逻辑编排,因此在LLM之上增加了决策编排器和外部工具,工作路径是“输入-推理-工具调用-反思-再次推理”的循环过程。其中,任务调度、状态机控制、上下文管理、工具分发等逻辑判断任务,具有极强的顺序性与逻辑分支复杂性,属于控制平面的典型负载。这类任务对单核延迟、分支预测准确率和上下文切换效率要求极高,更适合由高性能CPU核心处理。
Agent时代,CPU成为显著瓶颈。由于AI Agent引入了大量外部工具(如网络搜索、Python解释器、检索数据库等),这些工具主要在CPU上运行,导致CPU成为性能、吞吐量和能耗的关键瓶颈。佐治亚理工学院与Intel实验室的研究人员在2025年11月联合发表的论文,通过实验验证了五个代表性Agent工作负载在多个基准测试上的端到端运行时间。根据论文研究结果来看,在所有设置中,对延迟的主要贡献大多是运行在CPU上的工具处理(检索、WolframAlpha API、文献搜索、LexRank总结以及Bash/Python执行),占端到端延迟的84.5%–90.6%。
数据来源:《A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI》(2025.11),华泰研究

总结来看,Chatbot时代的CPU是“搬运工”,只做用户指令的搬运和转发,重要性相对弱;Agent时代的CPU是“管家”,统筹Agent环境运行、多Agent调用、记忆系统管理等,承担着核心的计算工作。
新一代 AI Agent 与传统智能体在运行机制、执行环境及资源需求上存在较大差异,其复杂任务闭环执行的特性,使得对独立沙箱环境与高性能、高并发 CPU 的需求大幅提升,且 CPU 在任务全流程中的作用与耗时占比显著增加。传统Agent仅做意图识别,执行依赖简单的API调用。而新一代Agent为了安全和闭环执行任务(如写代码、处理文件、分析数据),必须在云端创建一个“沙箱环境”。这些沙箱环境本质上是模拟了一台完整的电脑,Agent在其中运行Python代码、解压文件、渲染网页等操作,依赖CPU的通用计算能力。两种Agent区别如下:
典型场景:点外卖、电商购物、订酒店等场景,Agent 仅充当“分发者”和“翻译官”。它理解用户意图后,直接调用现成的底层 API 接口。不需要创建独立的虚拟沙箱环境,直接复用现有的业务服务器(如外卖平台的服务器)。
典型场景:复杂文件处理(网盘下载→解压→数据分析)、PPT 制作(缺乏标准 API)、通用生产力工作等。任务中间涉及文件操作、渲染或复杂的非标准化步骤,必须有一个独立的 “操作空间”来承载这些动作。 必须为每个任务创建独立的虚拟环境(沙箱),消耗额外的 CPU 和内存。
从需求上来看,一个简单的Agent任务可能需要创建1-2个沙箱环境,每个用户可能同时触发几十个沙箱。虽然单任务可能仅分配0.5核+1G内存,但在海量并发下,需求呈指数级增长。同时,用于Agent沙箱执行的CPU,并非必须是与GPU封装在同一台AI服务器中的CPU,而可以是独立的通用服务器CPU。这意味着Agent带来的CPU需求与GPU数量不强绑定,具备独立的增长逻辑。
除了对CPU数量上的需求,在Agent高并发工具调用和复杂沙箱运行场景下,CPU性能直接决定了Agent的响应速度和成功率,因此也需要更高性能的CPU。
随着任务链条变长(Long-context/长程推理),CPU 的工作时长占比将大幅提升。不同于传统对话,Agent 完成一个任务(如写报告)的流程是 CPU 和 GPU 交替配合的:
第一步(GPU 主导):用户下达指令,GPU 进行推理,生成一个详细的 To-Do List(任务规划/拆解)。规划一旦完成,GPU 暂停。
第二步(CPU 主导):CPU 根据 To-Do List 开始干脏活累活(如控制浏览器、搜索网页、下载文件、寻找信息)。
第三步(GPU 介入):在 CPU 完成一个子任务后,GPU 介入,对任务完成度进行评分/评估(Review)。如果评估不合格:CPU 继续干活;如果评估合格:进入下一个子任务。
第四步(GPU 收尾):所有任务完成后,GPU 进行最终的总结和报告生成。
这中间CPU承担了漫长的执行过程,往后思考和执行的链条越长(任务越复杂),CPU 在整个过程中运行的时间占比就越高。
回顾AI算力的演进历程,每一次架构跃迁,都在重新定义计算的核心。从GPU的崛起,到如今CPU角色的强势回归与进化——这不是取代,而是一次更深度的融合,一场CPU与GPU高效协同、各展所长的算力新革命正在全面展开。