/ ai资讯

如何在边缘AI应用场景中实现高性能、低功耗推理(下)

发布时间:2026-02-26 17:47:33

续接上篇,我们一起看看RA8P1如何通过两个应用示例帮助简化AI实现。

应用示例1:RA8P1上的图像分类

图 4:图像分类系统框图

上图显示了图像分类应用程序实现。RA8P1将构建此视觉AI应用程序所需的CPU内核、NPU、内存和外设集成在单个芯片上。应用程序会分析输入图像并为其分配预先分配的标签或类别。神经网络模型在庞大的图像数据集上进行训练(其中每张图像都标有类别),并部署在RA8P1 MCU上。

为了进行推理,将新的输入图像输入到模型中,并通过经过训练的网络的各层。然后,输出层提供所有类别的概率分布,并将概率最高的类别分配为图像的标签。然后,可以将此输出数据(图像标签和准确性)发送到显示器或云。在我们的实施中,我们看到与使用CPU内核相比,使用Ethos-U55的推理速度提高了33倍。

图 5:RA8P1上的图像分类和性能比较,NPU与CPU

图像分类可用于各种应用:

安全–危险品识别、人员识别、异常检测

零售–按类别创建产品目录、库存管理

农业–识别作物病害、植物分类

智慧城市–识别交通信号灯/标志和行人

智能电器–识别冰箱内的物体

应用示例 2:RA8P1上的驾驶员监控系统

此应用程序展示了Nota-AI驾驶员监控系统(DMS),这是一种车内安全解决方案,旨在增强车辆行驶各个方面的道路安全。使用RA8P1,Nota-ai DMS可以检测未注册的驾驶员、驾驶员疲劳、手机使用情况以及驾驶员分心(如吸烟)的情况。

随着RA8P1的更高性能,我们看到该应用中使用的四种模型(人脸检测、人脸特征点、眼睛特征点和手机检测)的推理性能提高了4到24倍。

DMS可用于仪表板摄像头、车辆行驶数据记录仪和驾驶员监控系统。

图 6:RA8P1上的驾驶员监控系统NPU与CPU性能比较

这两个视觉AI应用程序都充分利用了RA8P1 MCU上的资源:

通过图像传感器进行高效的输入图像采集:

RA8P1包括一个专用的MIPI CSI-2接口,带有图像缩放单元或16位CEU并行摄像头接口,用于捕获原始图像输入数据。

使用Ethos-U55 NPU进行高性能推理处理:

RA8P1 MCU上的Ethos-U55 AI加速器可分担CPU内核工作,并比CPU内核更高效、更低功耗地处理复杂的AI模型。它从MIPI CSI-2或并行CEU接收处理后的图像。

预先训练的AI模型(例如,像MobileNetv1这样的图像分类模型)使用RUHMI工具针对RA8P1进行了优化,并加载到NPU上。

Ethos-U55 NPU以非常高的速度(高达256 GOPS)和高功效执行实际的AI推理。

使用Arm Cortex-M85和Cortex-M33加快应用程序处理速度

带有Arm Helium矢量扩展的高性能1GHz CM85内核可用于输入图像或音频数据以及推理结果的预处理和后处理。Ethos-U55不支持的运算符也可以由CM85内核在回退模式下执行,由CMSIS-NN库加速。它还用于执行应用程序代码。

250MHz Cortex-M33内核可用于低功耗唤醒和内务管理任务。

通过片上存储器和存储器接口高效存储图像、模型权重和激活:

片上大型1MB MRAM和2MB SRAM对于存储AI模型权重、图像和中间激活至关重要。 与闪存相比,集成的嵌入式MRAM具有更快的写入速度、更高的耐用性和数据保持率等优势。

MCU还支持适用于更大模型的高吞吐量外部存储器接口(具有XIP和动态解密的OSPI以及32位SDRAM)。

用于LCD面板的高级图形外设:

GLCDC(具有并行RGB或MIPI DSI接口)和2D引擎可用于处理图像和推理结果并将其渲染到LCD显示器上。

灵活的连接选项:

存在多种连接选项,可将推理结果、图像或警报/通知传输到本地设备或云,以进行存储或分析。

边缘AI应用从AI加速MCU的使用中受益匪浅。它们在实时性、低功耗和安全性重要的应用场景具有关键价值。低功耗MCU的加入是AI解决方案领域的一个变革性变化。

全新RA8P1 MCU大幅降低延迟,实现数据隐私并最大限度地降低功耗,使其成为电池供电应用的理想选择。整个开发由瑞萨电子的全面RUHMI框架提供支持,该框架可帮助开发人员在RA8P1硬件上高效优化和部署其AI模型。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com