
2025中关村论坛年会期间,面壁智能联合创始人兼CEO李大海在“未来人工智能先锋论坛”发表演讲,明晰端侧AI与端侧模型的区别,强调端侧模型的价值,并对大模型与Agent的发展趋势做出展望,称未来大模型将在智能场景中实现人人可享。
端侧 AI 与端侧模型的区别
端侧 AI 与端侧模型的本质差异,源于技术架构与应用逻辑的根本分野。李大海在 2025 中关村论坛的演讲中强调,端侧 AI 是 “终端场景的 AI 能力实现”,其背后既可以是云端模型通过边缘计算提供服务(如华为 HiAI 平台的端云协同方案),也可以是端侧模型直接运行(如统信软件的 UOS LM 操作系统级端侧模型)。例如,手机上的语音助手若依赖云端大模型完成语义理解,属于端侧 AI 范畴;而若完全在本地运行轻量级模型实现同样功能,则属于端侧模型。
从技术实现看,端侧 AI 的核心在于场景适配,其架构通常包含边缘节点与云端的协同。例如,商汤科技的端云结合方案中,知识类场景的端侧处理占比超过 70%,复杂任务则由云端补充算力。而端侧模型则需全链路本地化,如统信软件的 UOS LM 通过动态资源调度和模型加速框架,在消费级 PC 上实现了毫秒级响应,同时避免数据上传风险。这种差异导致两者的技术挑战截然不同:端侧 AI 需解决边缘节点与云端的通信延迟问题,而端侧模型则需突破终端设备的算力、存储与功耗限制。
市场数据进一步印证了这一区分。IDC 预测,到 2026 年全球 80% 的企业将使用生成式 AI,其中 50% 的边缘部署将包含 AI。这意味着端侧 AI 的普及将推动边缘计算基础设施的升级,而端侧模型的发展则依赖于轻量化技术的突破,如稀疏注意力网络、分组查询注意力(GQA)等。
端侧模型的价值
端侧模型的核心价值在于隐私安全与场景可靠性,这两大优势在数据敏感型场景中尤为突出。例如,医疗设备中的端侧模型可在本地完成患者影像分析,避免隐私数据泄露;自动驾驶汽车在网络中断时,仍能通过端侧模型维持决策能力。统信软件的 UOS LM 通过本地知识库构建和向量数据库技术,实现了文档内容的语义搜索与分析,所有数据处理均在终端完成,符合 GDPR 等隐私法规要求。
隐私性的技术实现依赖于数据不出端的架构设计。例如,华为 HiAI 平台通过 NPU 硬件加速,在端侧完成图像超分、语音识别等任务,无需将原始数据上传至云端。而可靠性则通过离线运行能力保障,移远通信的端侧 AI 大模型解决方案在无网络环境下,仍能支持医疗机器人完成诊断推理和指令控制。这种特性在工业物联网、应急通信等场景中具有不可替代性。
此外,端侧模型还能降低算力成本。传统云端 AI 需承担高昂的带宽费用和服务器负载,而端侧模型通过本地算力复用,显著优化了资源消耗。例如,商汤科技的 SenseChat-Lite 模型在中端手机平台上实现 18.3 字 / 秒的生成速度,功耗仅为云端方案的 1/5。
大模型与 Agent 的发展趋势
李大海提出的 “大模型与 Agent 本质相同” 观点,揭示了 AI 技术从通用能力向场景化应用演进的趋势。当前,Agent 的核心能力(如任务规划、多轮对话)正通过模型架构创新融入大模型。例如,面壁智能的 “面壁小钢炮” MiniCPM 系列端侧模型,通过内置 Agent 逻辑,在汽车智能座舱中实现了毫秒级响应的语音交互和功能控制。这种融合使得模型无需依赖外部工作流引擎,直接以 “模型即产品” 的形态提供服务。
轻量化技术是推动大模型端侧落地的关键。例如,DeepSeek 通过量化和蒸馏技术,将 7B 参数模型压缩至等效性能,使其能在消费级芯片上运行。清华大学的 OneBit 框架则将大模型权重压缩 90%,保留 83% 的能力,为手机端部署铺平道路。这些技术突破使得 “更强更小” 的目标成为可能 —— 联想 YOGA AI PC 已实现 7B 端侧模型的流畅运行,推理速度提升 40%。
未来,大模型与 Agent 的融合将催生 “终端智能体” 新范式 。例如,移远通信的端侧 AI 大模型解决方案结合 RAG(检索增强生成)技术,在医疗机器人中实现了专业知识库的本地存储与实时调用。这种模式下,每个终端设备都可能成为具备自主决策能力的智能体,如汽车、手机、工业传感器等,从而构建 “人人可享” 的 AI 生态。
从行业趋势看,IDC 预测 2025 年全球边缘计算支出将达 2610 亿美元,其中 AI 是核心驱动力。这意味着端侧模型与 Agent 的结合将重塑各行业的智能化路径,从消费电子到智能制造,从医疗到能源,端侧 AI 的 “平民化” 进程正在加速。