为了实现智能化程度更高的移动设备,半导体业界利用深度学习算法来训练卷积神经网络(CNN)已经不是什么新鲜事了,3D感知、3D跟踪、图像搜索等方面的研究也如火如荼的进行。几大领先的IP供应商已经推出部分应用,试图以全新方法来设计处理器架构,提供更强大的处理能力。
DSP IP平台授权厂商CEVA公司近日宣布推出实时神经网络软件框架CEVA 深层神经网络(CEVA Deep Neural Network, CDNN),以简化低功耗嵌入式系统中的机器学习部署。通过利用CEVA-XM4 图像和视觉DSP的处理能力,CDNN使得嵌入式系统执行深层学习任务的速度比基于GPU的领先系统提高3倍,同时消耗的功率减少30倍,所需存储带宽减少15倍 (注)。例如,在28nm工艺下对每秒 30帧的1080p视频流运行基于深层神经网络(DNN) 的行人检测算法,所需功率低于30mW。
CDNN具备高性能、低功率和低存储带宽特性的关健在于CEVA网络生成器(CEVA Network Generator),这个专有自动化技术能够将客户的网络结构和权重转换为用于实时的、轻量级的定制网络模型,以实现可以显著减少功耗和存储带宽的更快速网络模型,与原本网络相比,其精度退化低于1%。这个定制嵌入就绪(embedded-ready)网络一旦生成,便可使用完全优化的卷积神经网络(Convolutional Neural Network, CNN)层、软件库和API在CEVA-XM4图像和视觉DSP上运行。
比较在最常用的深层神经网络AlexNet上的运行情况
CEVA公司CEVAnet合作伙伴计划的成员企业Phi Algorithm Solutions已经使用CDNN实现了一个基于CNN的通用目标检测 (Universal Object Detector)算法,用于CEVA-XM4 DSP。现在应用开发人员和OEM厂商可以把这个算法用于各种应用,包括用于安全的行人检测和面部检测、先进驾驶辅助系统(ADAS)和基于低功耗相机功能系统的其它嵌入式设备。
CDNN 软件框架结合CEVA-XM4图像和视觉DSP具有下列优势:
·实时目标识别和视觉分析;
·用于嵌入式系统的最低功耗深层学习解决方案:与基于GPU的领先解决方案相比,功耗降低30倍,处理速度加快3倍;
·与典型的神经网络实施方案相比,所需平均存储带宽减少15倍;
·从离线预训练网络自动转换至实时嵌入就绪(embedded-ready)网络;
·具有支持各种神经网络结构的灵活性,包括任何层数目和层类型。
Phi Algorithm Solutions总裁兼共同创始人Steven Hanna表示:“CEVA深层神经网络框架为我们基于卷积神经网络的算法提供了从离线训练到实时检测的快速顺畅路径,使得我们能够在短短数天内获得经过优化的独特目标检测网络实施方案,并且功耗比其它平台显著降低。CEVA-XM4图像和视觉DSP结合CDNN框架,是嵌入式视觉设备的理想选择,并且为使用深层学习技术的人工智能设备在未来数年的进步打稳了根基。”
CEVA营销副总裁Eran Briman表示:“至今为止,我们已赢得了20多项设计,在嵌入式视觉处理器领域继续领先业界,并且不断提升我们的视觉IP产品组合以帮助客户更快地将产品推向市场并且最大限度地降低风险。我们用于CEVA-XM4的新型深层神经网络框架是嵌入技术行业中首个此类产品,为寻求在功率受限的嵌入式系统中实施可行深层学习算法的开发人员实现了长足的进步。”
CDNN软件框架以源代码方式提供,扩展了CEVA-XM现有的应用开发套件 (ADK) 。它具有灵活和模块化特性,能够支持完整的CNN实施方案或特定层,并且可与各种网络和结构共享,比如使用Caffe、Torch或Theano训练框架开发的网络,或专有网络。CDNN包括用于图像分类、定位和目标识别的实时示例模型,用于目标和场景识别、先进驾驶辅助系统(ADAS)、人工智能(AI)、视频分析、增强现实(AR)、虚拟现实(VR)和类似的计算机视觉应用。
实际上,CEVA的IP应用于全球三分之一的手机,分别来自顶尖手机OEM厂商如三星、华为、小米、联想、HTC、LG、酷派、中兴 (ZTE)、Micromax和魅族等。