Arm Ethos-U85 NPU:利用小语言模型在边缘侧实现生成式 AI
随着人工智能 (AI) 的演进,利用小语言模型 (SLM) 在嵌入式设备上执行 AI 工作负载成为业界关注的焦点。Llama、Gemma 和 Phi3 等小语言模型,凭借其出色的成本效益、高效率以及在算力受限设备上的易部署性,赢得了广泛认可。Arm 预计这类模型的数量将在 2025 年继续增长。
Arm 技术以其高性能与低功耗的显著优势,为小语言模型提供了理想的运行环境,能够有效提升运行效率,并进一步优化用户体验。为了直观展示端点 AI 在物联网和边缘计算领域的巨大潜力,Arm技术团队近期打造了一场技术演示。在演示中,当用户输入一个句子后,系统将基于该句扩展生成一个儿童故事。这项演示受到了微软 “Tiny Stories” 论文和 Andrej Karpathy 的 TinyLlama2 项目的启发,TinyLlama2 项目使用了 2,100 万个故事来训练小语言模型生成文本。
该演示搭载了 Arm Ethos-U85 NPU,并在嵌入式硬件上运行小语言模型。尽管大语言模型 (LLM) 更加广为人知,但由于小语言模型能够以更少的资源和较低的成本提供出色的性能,而且训练起来也更为简易且成本更低,因此越来越受到关注。
在嵌入式硬件上实现基于 Transformer 的小语言模型
Arm 的演示展示了 Ethos-U85 作为一个小型低功耗平台,具备运行生成式 AI 的能力,并凸显了小语言模型在特定领域中的出色表现。TinyLlama2 模型相较 Meta 等公司的大模型更为简化,很适合用于展示 Ethos-U85 的 AI 性能,可作为端点 AI 工作负载的理想之选。
为开发此演示,Arm 进行了大量建模工作,包括创建一个全整数的 INT8(和 INT8x16)TinyLlama2 模型,并将其转换为适合 Ethos-U85 限制的固定形状 TensorFlow Lite 格式。
Arm 的量化方法表明,全整数语言模型在取得高准确度和输出质量之间实现了良好平衡。通过量化激活、归一化函数和矩阵乘法,Arm 无需进行浮点运算。由于浮点运算在芯片面积和能耗方面成本较高,这对于资源受限的嵌入式设备来说是一个关键考量。
Ethos-U85 在 FPGA 平台上以 32 MHz 的频率运行语言模型,其文本生成速度可达到每秒 7.5 到 8 个词元 (token),与人类的阅读速度相当,同时仅消耗四分之一的计算资源。在实际应用的系统级芯片 (SoC) 上,该性能最多可提高十倍,从而显著提升了边缘侧 AI 的处理速度和能效。
儿童故事生成特性采用了 Llama2 的开源版本,并结合了 Ethos NPU 后端,在 TFLite Micro 上运行演示。大部分推理逻辑以 C++ 语言在应用层编写,并通过优化上下文窗口内容,提高了故事的连贯性,确保 AI 能够流畅地讲述故事。
由于硬件限制,团队需要对 Llama2 模型进行适配,以确保其在 Ethos-U85 NPU 上高效运行,这要求对性能和准确性进行仔细考量。INT8 和 INT16 混合量化技术展示了全整数模型的潜力,这有利于 AI 社区更积极地针对边缘侧设备优化生成式模型,并推动神经网络在如 Ethos-U85 等高能效平台上的广泛应用。
Arm Ethos-U85 彰显卓越性能
Ethos-U85 的乘法累加 (MAC) 单元可以从 128 个扩展至 2,048 个,与前一代产品 Ethos-U65 相比,其能效提高了 20%。另外相较上一代产品,Ethos-U85 的一个显著特点是能够原生支持 Transformer 网络。
Ethos-U85 支持使用前代 Ethos-U NPU 的合作伙伴能够实现无缝迁移,并充分利用其在基于 Arm 架构的机器学习 (ML) 工具上的既有投资。凭借其卓越能效和出色性能,Ethos-U85 正愈发受到开发者青睐。
如果在芯片上采用 2,048 个 MAC 配置,Ethos-U85 可以实现 4 TOPS 的性能。在演示中,Arm 使用了较小的配置,即在 FPGA 平台上采用 512 个 MAC,并以 32 MHz 的频率运行具有 1,500 万个参数的 TinyLlama2 小语言模型。
这一能力凸显了将 AI 直接嵌入设备的可能性。尽管内存有限(320 KB SRAM 用于缓存,32 MB 用于存储),Ethos-U85 仍能高效处理此类工作负载,为小语言模型和其他 AI 应用在深度嵌入式系统中的广泛应用奠定了基础。
将生成式 AI 引入嵌入式设备
开发者需要更加先进的工具来应对边缘侧 AI 的复杂性。Arm 通过推出 Ethos-U85,并支持基于 Transformer 的模型,致力于满足这一需求。随着边缘侧 AI 在嵌入式应用中的重要性日益增加,Ethos-U85 正在推动从语言模型到高级视觉任务等各种新用例的实现。
Ethos-U85 NPU 提供了创新前沿解决方案所需的卓越性能和出色能效。Arm 的演示显示了将生成式 AI 引入嵌入式设备的重要进展,并凸显了在 Arm 平台上部署小语言模型便捷可行。
Arm 正为边缘侧 AI 在广泛应用领域带来新机遇,Ethos-U85 也因此成为推动新一代智能、低功耗设备发展的关键动力。
- •思特威SmartGS-2 Plus系列CMOS图像传感器产品,赋能智能机器人视觉系统2025-02-20
- •大联大诠鼎集团推出基于英诺赛科产品的48V/120A BMS方案2025-02-20
- •东芝推出高速导通小型光继电器,可缩短半导体测试设备的测试时间2025-02-20
- •艾迈斯欧司朗发布新一代光子计数与高性价比传感器解决方案,推动CT技术升级2025-02-20
- •摩尔斯微电子推出全球首款 Wi-Fi 4 和Wi-Fi HaLow双认证路由器 :现已在 Mouser.com 上发售,售…2025-02-20
- •Arm Ethos-U85 NPU:利用小语言模型在边缘侧实现生成式 AI2025-02-19
- •利用解决方案供应商的优势加速自主移动机器人开发2025-02-19
- •大联大品佳集团推出基于达发科技(Airoha)产品的LE Audio耳机方案2025-02-19
- •第 4 代碳化硅技术:重新定义高功率应用的性能和耐久性2025-02-19
- •瑞萨推出RA4L1 MCU,超低功耗、集成电容式触控、 段码LCD和强大安全功能2025-02-19