关于AI算力问题的思考

来源：期刊VIP网所属分类：计算机信息管理发布时间：2019-10-26浏览：次

　　【摘要】人工智能技术已经成为国家发展战略。目前人工智能技术对算力需求与集成电路所能提供支持的差距日益加大，人工智能信息处理平台需要在处理速度、复杂度和功耗等方面有数量级的改善，才能满足人工智能技术在军民领域的应用，因而需要寻求新颖的技术路线解决人工智能的算力问题。介绍了一种颠覆性的技术——概率计算方法，该技术采用了一种类脑的非精确的模糊计算模式。相关研究工作表明，在现有工艺条件下该技术能够满足人工智能系统对处理速度、复杂度和功耗的要求，可以支持未来人工智能系统应用的要求。

　　【关键词】人工智能;计算能力;概率计算

智能制造

　　《智能制造》面向国内外公开发行.杂志以提高企业应用水平，追踪技术研发热点。

　　1 引言

　　人类世界的信息业务量正在呈爆发式的增长，传统的数字信号处理和统计方式已经难以满足未来的数据和信息处理的需求[1]。在此背景下，出现了一批以机器学习算法为代表的处理算法和系统，来协助人类处理“大数据”时代下的海量信息与数据[2]。同时，随着机器算法的不断发展优化，计算机处理能力的突飞猛进，机器学习算法的能力越来越强，完成的功能越来越强大。

　　最近有关机器学习最出名的案例就是Google的AlphaGo与人类进行的围棋人机大战，AlphaGo完胜了人类顶尖棋手，展现出了机器学习算法和系统的强大分析和处理能力[3-4]。因此，将机器学习算法应用到目前的数字信号处理系统中，这将是未来重要的一个发展和研究方向[5-6]，有很高的实用价值和战略价值。

　　而基于机器学习的大数据处理算法和系统需要极高的计算复杂度，因此对后摩尔时代的计算处理器和芯片提出了巨大的挑战。当前，随着集成电路工艺的发展，芯片的特征尺寸已经接近1 nm的界限[7]。这个界限在工业界看来是基于硅工艺的芯片发展的极限，如若不能突破这个极限，未来的芯片生产和制造将举步维艰。同时一些新兴的技术，如量子计算、碳纳米管等，真正进入实用还有很长的路需要探索[8]。

　　推动AI技术发展和应用的三大助力是：大数据、算法和算力。很多企业和高校的研究重点都集中在大数据和算法上面，只有Intel、Nvidia等芯片供应商和HP、浪潮等服务器供应商在对算力问题进行研究。本文将简单分析一下对AI算力研究的思考。

　　2 算力问题目前的技术路线

　　近年來深度学习的处理芯片蓬勃发展。大致来看可以分为以下几种：

　　(1)GPU：英伟达以其大规模的[23]并行GPU和专用GPU编程框架CUDA主导着当前的深度学习市场[24]。GPU在处理图形的时候，从最初的设计就能够执行并行指令，从一个GPU核心收到一组多边形数据，到完成所有处理并输出图像可以做到完全独立[25]。由于最初GPU就采用了大量的执行单元，这些执行单元可以轻松地加载并行处理，而不像CPU那样的单线程处理。另外，现代的GPU也可以在每个指令周期执行更多的单一指令。所以GPU比CPU更适合深度学习的大量矩阵、卷积运算的需求[26]。

　　(2)NPU：中科院研制的人工智能芯片——寒武纪1号(DianNao，面向神经网络的原型处理器结构)、寒武纪2号(DaDianNao，面向大规模神经网络)、寒武纪3号(PuDianNao，面向多种机器学习算法)[27]。CPU、GPU与NPU相比，会有百倍以上的性能或能耗比差距，以寒武纪团队和Inria联合发表的DianNao论文为例，DianNao为单核处理器，主频为0.98 GHz，峰值性能达每秒4 520亿次神经网络基本运算，65 nm工艺下功耗为0.485 W，面积3.02 mm2。

　　在若干代表性神经网络上的实验结果表明[28]：DianNao的平均性能超过主流CPU核的100倍，但是面积和功耗仅为1/10，效能提升可达三个数量级;DianNao的平均性能与主流GPU相当，但面积和功耗仅为主流GPU百分之一量级。另有IBM主导的SyNAPSE巨型神经网络芯片(类人脑芯片)TrueNorth，在70 mW的功率上提供100万个神经元内核、2.56亿个突触内核以及4 096个神经突触内核，神经网络和机器学习负载超越了冯·诺依曼架构[29]。

　　(3)TPU：张量处理单元(Tensor Processing Unit， TPU)。这是一款由Google开发的，为了机器学习而定制的ASIC，并且经过了TensorFlow的调教。TPU已经在Google数据中心运行了一年多，实践表明它可以为机器学习带来相当出色的每瓦特性能表现。TPU是专为机器学习应用而定制的，它的宽容度更高，可以降低计算的精度(所需的晶体管操作也更少)[30]。

　　(4)FPGA：在2017现场可编程门阵列国际大会(ISFPGA)上，来自英特尔加速器架构实验室(AAL)的Eriko Nurvitadhi博士展示了有关“在加速新一代深度神经网络方面，FPGA可否击败GPU”的研究。该项研究使用最新的DNN算法在两代英特尔FPGA(Arria 10与Stratix 10)与目前最高性能的英伟达Titan X Pascal GPU之间做了对比评估。和高端GPU相比，FPGA的能量效率(性能/功率)会更好，而且它们还可以提供顶级的浮点运算性能(Floating-Point Performance)。FPGA技术正在快速发展。即将上市的Intel Stratix 10 FPGA能提供超过5 000个硬浮点单元(DSP)，超过28 MB的片上内存(M20K)，同时整合了高带宽内存(最高可达4×2

　　50 GB/s/stack或1 TB/s)，以及由新的HyperFlex技术改善了的频率。英特尔FPGA能提供全面的软件生态系统——从低级硬件描述语言到OpenCL、C和C++的高级软件开发环境。使用MKL-DNN库，英特尔将进一步将FPGA与英特尔机器学习生态系统和诸如Caffe这样的传统架构结合起来。Intel Stratix 10基于英特尔的14 nm技术开发，拥有FP32吞吐量上9.2 TFLOP/s的峰值速度。相比之下，最新的Titan X Pascal GPU提供FP32吞吐量11 TLOP/s的速度[31]。

　　綜上所述，目前工业界解决AI算力有三个方法，通用平台、半定制平台和定制平台。这三种平台的特性对比如表1所示。

　　从表1可以看出，通用平台在开发软件环境支撑和大规模部署方面有得天独厚的优势，成为AI应用落地和云端部署的主力。因此，当今绝大多数的AI示范工程和云端部署都采用GPU和CPU服务器或服务器阵列完成。然而通用平台在计算效率和功率效率与半定制平台、定制平台有数量级的差距。面向嵌入式应用、移动设备应用，通用平台则难以支撑。对于云端应用，当越来越多的AI应用被部署到云端，功率保障可能会成为其瓶颈。如正在研发的“天河3”超算平台(该平台依然采用CPU+GPU架构)，其功率可能达到百万千瓦量级。CMOS工艺已经接近理论极限，而以量子计算为代表的新型计算平台距实际应用还有很长的道路。因此，通过工艺和计算介质进步解决目前通用平台功率效率问题不是十分现实，未来可能会出现发电量不足以支持全社会大规模AI应用的困境。

　　半定制和定制平台对于嵌入式应用和移动设备应用非常友好，可以成为未来在嵌入式或移动设备实现本地AI应用的主力。由于这些平台在功率效率和计算效率方面的优势，在大规模云端部署也有一定的空间。如阿里云和亚马逊都采用了以FPGA阵列为核心的计算平台。面向半定制和定制平台的大规模部署需要解决软件开发环境支持的问题。现在的AI应用开发已经形成以开源的开发环境为主流的情况，而且这些开发环境支持GPU、CPU平台以及阵列平台。因此，需要解决通用开发环境面向FPGA阵列部署的软件中间件问题，即利用Python设计的AI应用可以一键部署到FPGA阵列平台上，而不需要AI设计者面对硬件描述语言的开发问题。这样才能够很好地解决AI应用在以FPGA阵列为代表的半定制平台上大规模部署的问题。

　　3 基于概率计算方法的解决方法

　　计算效率和功率效率是AI算力面临的永恒的挑战，AI应用对算力的需求每3.5个月增加一倍，而基础电路工艺已经进入后摩尔时代，AI系统应用在算力上的“鸿沟”将越来越大。随着集成电路工艺的发展，芯片的特征尺寸已经接近1 nm的界限，如若突破这个极限，未来的芯片生产和制造将举步维艰。同时一些新兴的技术，如量子计算、碳纳米管等，真正进入实用还有很长的路需要探索。因此，目前迫切需求一种新颖数值系统，即数的表征和计算模式来打破传统密集计算的不足，同时该方法可以在现有的集成电路工艺条件下实现且兼容未来的集成电路工艺。

　　在此背景下，基于概率计算的新型计算方式应运而生。2010年，当基于概率计算的图像处理芯片横空出世后，概率计算的发展就开始突飞猛进了，并且于当年被《美国科技评述》评为未来十大最有前景的技术。

　　此后，MIT的研究团队更是提出了概率计算是继云计算之后最有潜力的一项技术。概率计算中最基本的运算单元采取一种非精确的近似计算的模式打破了传统电路的实现方式，可以对传统的算法进行向概率域的重新映射，使其符合满足概率计算的模式。概率计算再通过误差分析和建模，设计各种系统参数，使其满足系统的需求，最后根据设计的算法映射到实际的电路架构中，完成算法的最终实现。其基本的原理就是利用大量的非精确计算模拟出复杂的系统功能，这其实和人类强大的大脑工作原理不谋而合。人类大脑就是基于大量的直观和非精确的计算方式来处理当今信息社会的海量数据。而AI的算法也是模拟人类的大脑，在此环境下概率计算应运而生，因此概率计算能够非常好地乘载复杂的AI算法。

　　据悉，Google AlphaGo所使用的处理器就是基于一种非精确的概率计算模式。相信基于概率计算和AI的结合能够使得未来的数据处理和信息分析达到一个新的高度。如今人工智能的一个关键障碍是——给计算机提供的自然数据大多是非结构化和“嘈杂”的数据。Intel公司认为，概率计算可以使计算机在处理大规模的概率时更有效率，这是将当前系统和应用程序从先进的计算辅助工具转变为理解和决策的智能合作伙伴的关键。

期刊VIP网，您身边的高端学术顾问

文章名称：关于AI算力问题的思考

文章地址： http://www.qikanvip.com/jisuanjixinxiguanli/49110.html

上一篇：基于ResNet-50改进的Faster R-CNN手势识别算法

下一篇：深读十大光企财报集体承压背后光通信

关于AI算力问题的思考

更多计算机信息管理文章推荐

专题专项服务