本文作者:访客

Arm发布Lumex CSS平台,高性能智能移动计算基石,助力端侧AI时代

访客 2025-09-15 14:01:29 5041
Arm公司发布了Lumex CSS平台,该平台旨在打造高性能、高能效的智能移动计算基石,为端侧AI时代提供强有力的支持,该平台具备卓越的性能和能效,能够满足不断增长的移动计算需求,为未来的智能移动设备提供强大的计算能力和高效的能源利用。

  人工智能正以前所未有的速度重塑全球计算格局,从云端大模型到设备端AI 智能体的应用场景已从实验室走向日常生活,成为智能手机、PC、汽车乃至物联网设备的核心驱动力。与此同时,用户不再满足于“联网才能智能”的体验,而是期待设备能够“离线思考”、“实时响应”,端侧AI能力将会成为接下来AI的重要方向。

  端侧 AI 的核心挑战在于如何在有限的功耗、散热与芯片面积约束下,实现高性能、低延迟、高隐私的本地化智能计算。传统“IP 授权+客户自研集成”的模式已难以应对AI时代对系统级优化、软硬协同和快速迭代的严苛要求。

  为此,Arm提出“平台优先”(Platform-First)策略,从单一IP供应商转型为端到端计算平台构建者。继面向数据中心的Neoverse CSS、面向汽车的Zena CSS之后,Arm日前正式发布了Lumex CSS。这是 Arm 面向移动端与 PC 市场的旗舰级计算子系统,标志着 Arm 正式进入“AI 优先”平台交付的新阶段。

Arm发布Lumex CSS平台,高性能智能移动计算基石,助力端侧AI时代

  Arm 高级副总裁兼终端事业部总经理 Chris Bergey 表示:“AI 正在重新定义计算。Arm Lumex 不仅仅是一组高性能 IP,而是一个专为 AI 打造,从底层重构的全栈平台。我们与生态系统紧密合作,确保开发者能以最低门槛、最高效率释放端侧 AI 的全部潜力。”

  Arm Lumex CSS平台:为AI而生

  Arm Lumex CSS是一个高度集成、模块化且可配置的计算平台,首次将基于Armv9.3架构的Arm C1 CPU集群、新一代 Mali G1-Ultra GPU、系统级互连IP以及生产就绪的物理实现方案打包交付,为芯片厂商与OEM 提供“开箱即用”的旗舰级AI计算底座。

Arm发布Lumex CSS平台,高性能智能移动计算基石,助力端侧AI时代

  Arm Lumex CSS 的核心是全新的Arm C1 CPU集群,这也是Arm首个基于Armv9.3架构的 CPU产品线。C1系列CPU采用全新命名体系,包含四个层级:

Arm发布Lumex CSS平台,高性能智能移动计算基石,助力端侧AI时代

  Arm C1-Ultra:旗舰级大核,单线程峰值性能较上代 Cortex-X925 提升 25%,专为高负载 AI 任务设计;

  Arm C1-Premium:次旗舰核心,面积较 C1-Ultra缩小 35% 仍保持同等性能,实现卓越的面积效率;

Arm发布Lumex CSS平台,高性能智能移动计算基石,助力端侧AI时代

  Arm C1-Pro:高能效核心,在相同频率下持续性能提升 16%,视频播放、网页浏览及社交媒体等日常应用能效提升多达 12%;

Arm发布Lumex CSS平台,高性能智能移动计算基石,助力端侧AI时代

  Arm C1-Nano:极致能效小核,核心面积缩小2%,能效比上代提升26%,适用于可穿戴设备。

  值得一提的是,所有Arm C1 CPU均原生集成SME2技术。SME2是专为加速AI矩阵运算设计的指令集扩展,支持2-bit、4-bit等低精度数据类型,显著降低内存占用与功耗。

Arm发布Lumex CSS平台,高性能智能移动计算基石,助力端侧AI时代

  实测数据显示,启用SME2的 Arm C1 CPU集群在生成式AI、语音识别、计算机视觉等任务中,AI性能提升高达5倍,能效优化达3倍。在Whisper Base语音识别、Google Gemma 聊天模型、Stable Audio音频生成等场景中,延迟降低2.8至4.7倍。

Arm发布Lumex CSS平台,高性能智能移动计算基石,助力端侧AI时代

  Arm C1 CPU集群在实际用例中表现突出。在行业领先的性能基准测试中,该CPU集群在同等条件下,相较于上一代CPU集群性能平均提升30%,在游戏和视频流媒体等应用中平均提速15%。与此同时,在日常移动端工作负载(如视频播放、社交媒体、网页浏览)中,该CPU集群在同等条件下,相较于上一代CPU集群功耗平均降低12%。

Arm发布Lumex CSS平台,高性能智能移动计算基石,助力端侧AI时代

  Arm Lumex CSS还包括全新Mali G1-Ultra GPU,这是Arm迄今为止性能最强的移动GPU。其最大亮点是搭载新一代光线追踪单元RTUv2,光线追踪性能提升2倍,在移动端即可实现“桌面级”游戏画质。

Arm发布Lumex CSS平台,高性能智能移动计算基石,助力端侧AI时代

  在《原神》《崩坏:星穹铁道》《堡垒之夜》《暗区突围》等主流游戏中,Mali G1-Ultra平均性能提升17%-25%。同时,其新增的FP16矩阵计算路径,使AI推理速度较上代提升20%,特别适用于语义分割、图像增强、物体检测等视觉AI任务。

Arm发布Lumex CSS平台,高性能智能移动计算基石,助力端侧AI时代

  Arm Lumex CSS还包含全新的SI L1系统互连与MMU L1内存管理单元,消除系统瓶颈,降低延迟。其系统级缓存(SLC)泄漏功耗降低71%,大幅提升待机能效。

  Arm Lumex CSS平台提供3nm工艺节点优化的物理实现方案,已获多家晶圆厂支持,帮助客户“一次流片成功”,大幅缩短产品上市周期。

  SME2如何重塑端侧AI开发范式?

  SME2是Arm Lumex CSS的“灵魂技术”,其意义不仅在于性能提升,更在于它重新定义了端侧AI的开发与部署方式。通过Arm KleidiAI软件库,主流AI框架如阿里巴巴MNN、Google LiteRT、Meta llama.cpp、微软 ONNX Runtime等已原生支持SME2。开发者无需修改一行代码,即可在支持SME2的设备上自动获得性能加速。

  SME2使CPU不再只是“通用处理器”,而成为AI加速的重要一环。Arm终端事业部产品管理副总裁James McNiven 解释:“SME2高度可编程,支持多种数据类型,特别适合低延迟、混合精度、小模型任务。数据无需在CPU、NPU间搬运,响应更快、功耗更低。”

  vivo 高级副总裁、首席技术官施玉坚提到:“SME2就像给CPU装上‘矩阵加速器’,让复杂计算更快更省电。”vivo在其计算加速平台 VCAP中全面支持SME2,在离线翻译等场景中实现额外20%性能提升。

  SME2的价值还在于其可扩展性。它不仅用于万元旗舰机,也将下沉至两千元价位段设备,让AI技术真正普惠大众。Arm预计,到2030年,SME/SME2将为全球超30亿台设备新增超100亿TOPS算力,彻底改变端侧AI的规模与形态。

  vivo、支付宝等伙伴率先落地,共创AI未来

  作为首家与Arm成立联合实验室的终端品牌,vivo自2023年起即投入SME2场景验证,并深入参与微架构调优,包括L2/L3缓存智能调度,实现“高性能+低功耗”的平衡。施玉坚预告:“搭载 Arm 最新一代计算技术与 SME2 的 vivo X 系列旗舰即将发布,将为用户带来前所未有的AI体验。”

  支付宝端侧AI引擎xNN日均执行超100亿次推理。通过与Arm、vivo三方协作,其在端侧大模型推理中实现显著加速,使“本地相册智能生成旅行视频”等隐私敏感型功能成为可能。

  Lumex是起点,AI无处不在的未来已来

  Arm Lumex CSS 的发布,不仅是技术的突破,更是生态协作模式的升级。它标志着移动计算正式进入“AI 优先”时代——设备不再是被动执行指令的工具,而是能思考、能预判、能协作的智能体,预计2026年搭载Arm Lumex CSS的设备将大规模上市。

Arm发布Lumex CSS平台,高性能智能移动计算基石,助力端侧AI时代

  Arm Lumex CSS用“平台化交付”解决了AI时代芯片设计的复杂性难题,用“SME2+KleidiAI”降低了开发者的创新门槛,用“从Ultra到Nano”的可扩展性实现了AI技术的全民普惠。

  在Arm与生态伙伴的共同努力下,一个“无处不AI”的世界正在加速到来。

阅读
分享