科学家构建超级智能体基础设施体系，突破AI部署的“不可能三角”

英伟达创始人兼 CEO 黄仁勋在 CES 2025 大会上曾经表示：“世界上有 10 亿知识工作者，AI 智能体（Agent）可能是下一个机器人行业，很可能是一个价值数万亿美元的机会。”这一判断引起人们对未来 AI 智能体形态更深入的思考。

AI 智能体有望彻底改变人机交互方式，或许我们将处于这样的场景：手机中只需要一个高度智能化的“超级数字助手”，而不再需要安装繁杂种类的 APP。

用户仅需通过自然语言对话，就能完成订机票、撰写文档、发送邮件甚至社交沟通等复杂任务，实现真正意义上的自然交互。

近期，美国 AI 初创公司 TensorOpera 的研究人员提出了一套名为超级智能体系统（Super Agent System）的完整解决方案 [1]。

这套系统不仅仅是概念设想，而是一整套真实运行的基础设施体系，其核心模块包括意图路由与自动规划、任务专用智能体、智能模型选择系统和端云混合部署。

图丨超级智能体系统概述（来源：arXiv）

Super Agent System 为 AI 智能体的实际应用提供了可靠的技术支撑，有望部署在手机、机器人等终端设备，并加速智能家居设备之间协同工作，完成复杂的任务。

例如，当用户回到家时，系统仅通过一个 Agent 自动协调各类设备：灯光智能开启，窗户自动关闭，关闭涉及隐私敏感的摄像头；当用户离开家时，系统又智能重启相关设备。

当系统集成扫地机器人等设备后，可主动感知用户状态，在检测到用户外出时主动询问是否启动清洁功能，进而有望实现全屋设备真正的自动化协同管理。

图丨姚宇航（来源：姚宇航）

日前，相关论文以《面向混合人工智能路由器的超级代理系统》（Toward Super Agent System with Hybrid AI Routers）为题发表在预印本网站arXiv上 [1]。TensorOpera 研究科学家姚宇航是第一作者，TensorOpera 的 CEO 何朝阳担任通讯作者。

图丨相关论文（来源：arXiv）

姚宇航本科毕业于上海交通大学 IEEE 试点班，后在美国卡内基梅隆大学获得博士学位。专注于 AI 智能体、大模型推理和联邦学习系统的研究。

他指出，大模型本身并不能直接应用于实际场景，而 Super Agent System 的突破性意义在于，搭建了从基础模型到实际应用的完整桥梁。这种端到端的智能解决方案不仅可提升家居自动化水平，更开启了人机协作的新范式。

提升效率的关键：选“对的”模型，比选“大”模型更重要

随着大语言模型技术的快速发展，超级智能体（Super Agent）正在成为连接用户意图与实际任务执行的重要桥梁。

然而，打造一个真正泛化、可靠的智能体系统，并非简单调用大模型就能实现。

早期的模型部署技术在应对高并发请求时表现不佳，效率问题凸显。这需要解决包括模型选择、任务分配、系统容错等在内的一系列复杂的技术挑战。

姚宇航解释说道：“每个 Agent 都‘各有千秋’，它们分别承担了特定的功能，就像是拥有不同专长的人。当系统接到某项任务时，需要智能地判断是交给某个 Agent 单独完成，还是交给多个 Agent 共同协同工作。”

有句广告语“只选对的，不选贵的”，对于模型的选择也同样适用。尽管 DeepSeek、ChatGPT 等大模型拥有强大的性能，但对于总结文档、日常聊天等简单任务，利用小模型或调用经过微调的专家模型往往更高效。

该团队所开发的 TensorOpera Router（以下简称为“Router”）[2] 本质上是一个“Prompt-to-Model”分类系统。其通过谷歌的 BERT 等语义理解模型和监督学习方法，通过分析任务需求，动态选择最适合的专家模型对相关请求进行处理。

（来源：arXiv）

Router 系统的技术优势体现在多个维度：

首先，它能精准识别任务的复杂度。例如面对数学问题时，系统可以识别“1+1=2”这类简单计算无需调用大模型，而对看似简短实则复杂的问题则能匹配专家模型。

其次，系统整合了生物、金融等领域的微调专家模型，通过智能路由实现最优模型组合，为高效智能地进行多模型选择提供了新方案，而这种智能的路由方式是之前静态路由所无法实现的。

更重要的是，Router 创新性地解决了模型选择中准确率、效率和成本的“不可能三角”问题。

在 8 台 NVIDIA DGX H100 GPU 的实验条件下，相比于固定模型推理，Router 实现了最高 30% 成本下降（基于真实商业定价模型），以及 40% 的吞吐量提升。即便面对模型服务商动态调整计费策略（如按 API 调用次数收费）的情况，系统仍能保持高效运行。

考虑到真实高并发场景（如每秒数万次请求）下单点故障的情况，研究人员设计了一种冗余机制：当某次请求失败时，系统可自动切换到备用节点重新发起请求，以保障系统的持续正常运行。

在技术指标方面，模型选择性能接近最优模型选择，BERT 相似度评分提升达 10%；在边缘-云混合部署架构中，Router 系统能够有效将大部分请求分配到如 Fox-1.6B 等边缘小模型上，仅将复杂任务交给 GPT-4o 等云端模型，从而实现了推理效率与资源调度的最佳配置。

（来源：arXiv）

目前，该技术已在实际应用场景中展现出显著价值。例如，TensorOpera 与高通合作，成功将 Router 部署在高通显卡上，显著提升了能效比和性价比。

另一个典型案例是某大型聊天网站，通过 Router 架构每天高效处理 300 万次访问请求。“我们仅用少量 GPU 资源就满足了他们的业务需求，这充分证明了智能路由系统的商业价值。”姚宇航表示。

解决 Agent 实际部署难题：四大核心模块，构建超级智能体的操作系统

在 Router 基础上，研究人员通过开发 Super Agent System 实现了技术架构的进一步扩展。

Super Agent System 采用模块化设计理念，由四大核心组件构成一个完整的智能体生态系统。

1. 意图路由与自动规划（Intent Router + Planner）

用户只需输入自然语言请求，系统会自动识别其意图并路由到合适的任务 Agent（如财务分析、代码生成、内容检索等）。

图丨通过函数调用对用户意图进行分类（来源：arXiv）

值得关注的是，系统还能自动生成多 Agent 协作的执行计划。以用户需要写一篇关于不稳定关税交易策略的文章为例，该系统会自动规划并协调三个 Agent 构成完整的流程，它们分别负责：查找实时关税信息、设计金融策略，以及实现 C++ 代码。

姚宇航表示：“整个流程完全自动化，不需要手动编写代码。Planner 就像一名项目经理，能自主完成任务分解，并智能分配给不同的 Agent 完成，实现高效地解决问题。”

这种协作还可以无限扩展，据介绍，现阶段研究人员正在尝试更大规模的 Agent 协作，尝试让 1000 个 Agent 进行协作和交流，共同完成盖房子等更复杂的任务。

图丨自动代理工作流计划（来源：arXiv）

2. 任务专用智能体（Task Agents）：专业 Agent 专注完成特定任务

每个 Task Agent 都是一个“任务专家”，集成了记忆（Memory）、工具使用能力（Tool Use）与检索增强生成能力（RAG，Retrieval-Augmented Generation）。

它们可调用数据库、执行 API 操作，甚至与物理世界进行交互，从而实现从数字到物理的复杂任务自动化。

图丨任务代理的示例（来源：arXiv）

3. 智能模型选择系统（Model Router）：选择“最优解”模型

不同厂商的模型在架构、参数规模和优化目标上存在差异。面对种类繁多的大模型，如何选择最合适的模型来处理当前任务？

智能模型选择系统 Router 作为 Super Agent System 核心模块之一，通过对提示语语义的理解，自动选择在准确率、响应速度与成本三者中最优的模型，动态路由任务请求。

图丨具有成本优化配置的模型路由器（来源：arXiv）

即便是金融分析或写代码等同类任务，由于任务的难度不同，需要根据任务的复杂程度选择不同的模型。

姚宇航举例说道：“对于复杂的任务，我们可以使用满血版的 DeepSeek 模型；而对于简单的任务，我们可以使用 Fox 等小模型。这样能够在准确率、响应速度和成本之间找到最佳平衡。”

4. 端云混合部署（Edge-Cloud Hybrid）：让 AI 智能体运行在手机上

该团队认为，未来超级智能体将运行在终端设备（如手机、机器人）上，结合小语言模型与云端大模型协同工作，既保障了隐私性和实时性，又确保了复杂任务的处理能力。

特别是在当下火热的具身智能领域，机器人可以依托本地算力完成常规任务，仅在必要时寻求云端支持，实现了计算资源的最优配置。这样，机器人既可以利用本地的强大能力，又能通过云端获取更广泛的支持。

（来源：arXiv）

需要了解的是，Super Agent System 并非传统的单体架构，而是采用模块化、插件化的设计理念，为不同场景需求提供灵活可配置的解决方案。这种设计理念为未来智能体开发开辟了新的技术路径，有望加速 AI 应用在各行业的落地进程。

该架构为开发者带来了新的可能性：开发者只需定义任务意图与流程规划，系统可自动分配 Agent 执行；其次，可根据实际场景灵活部署在本地、边缘或云端；最后，系统组件具备极强的“系统演化能力”，可随着模型更新动态替换，进而具备持续进化的能力。

ScaleLLM：大模型推理不只是加速，而是系统级重构

要构建一个真正具备实用价值的智能体系统，单纯依靠“模型本体”的性能是远远不够的。系统级的延迟控制、吞吐量优化和并发处理能力，才是决定其能否实现大规模部署的关键因素。

针对这一技术挑战，该团队创新性地开发了 ScaleLLM[3]——一个专为真实世界智能体服务场景设计的高性能端到端推理框架。

该系统采用多层级机制进行部署，通过自动扩展机制，在真实负载下实现了对主流推理引擎的显著提升：在 64 并发请求场景下，与 vLLM（Virtual Large Language Model）相比，性能提升 4.3 倍，吞吐量提升 1.5 倍。

其突破性源于多种技术创新在：首先，系统采用 Rust 语言编写高性能网关，彻底规避了 Python 全局解释器锁的性能限制；其次，集成 FlashAttention、PagedAttention 等前沿技术，显著优化了键值缓存（Key-Value Cache）管理和动态批处理效率。

图丨 ScaleLLM 服务系统概述（来源：arXiv）

谈及技术的未来发展，姚宇航表示，当前的模型部署模式与贾扬青创立的 Lepton AI 公司有相似之处，但智能体系统因其解决实际问题的能力，有望创造更高的商业价值。

总体来说，研究人员正在构建完整的超级智能体基础设施体系：从智能意图识别到动态模型调度，再从 ScaleLLM 高性能推理系统到端云协同架构。

这种系统级创新彻底改变了传统的人机交互模式——用户的一条简单提示背后，不再是单一模型生成应答，而是一整套智能体系统在幕后完成复杂的任务分解、协作和执行流程。这种变革预示着：在不久的将来，运行在个人终端设备中的超级智能体，有望成为人类与数字世界交互的全新范式。

参考资料：

1.https://arxiv.org/html/2504.10519v1

2.Dimitris Stripelis, Zhaozhuo Xu, Zijian Hu, Alay Dilipbhai Shah, Han Jin, Yuhang Yao, Jipeng Zhang, Tong Zhang, Salman Avestimehr, and Chaoyang He. 2024. TensorOpera Router: A Multi-Model Router for Efficient LLM Inference. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track, pages 452–462, Miami, Florida, US. Association for Computational Linguistics.

3.Yuhang Yao, Han Jin, Alay Dilipbhai Shah, Shanshan Han, Zijian Hu, Dimitris Stripelis, Yide Ran, Zhaozhuo Xu, Salman Avestimehr, and Chaoyang He. 2024. ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track, pages 279–289, Miami, Florida, US. Association for Computational Linguistics.

4.https://finance.yahoo.com/news/nvidia-jensen-huang-says-ai-044815659.html?guccounter=1

运营/排版：何晨龙