万字解析：“AI芯片”通识

本文作者团员书博，从事过芯片、硬件、嵌入式等相关工作，最近希望成为“AI芯片”范畴的产品经理，所以特地深度研讨这个范畴，输出了这篇文章。本文，是用产品经理可以看得懂的言语和角度，讲述AI芯片相关干货；能够说，关于AI芯片这个相对偏技术的范畴来说，没有他这样的技术背景，即便input了很多文章报道，也很难有这种高质量的产出的。

目录

一、AI芯片概述

二、AI芯片的分类和市场划分（云端/终端，锻炼/推理）

三、AI芯片技术道路（GPU/FPGA/ASIC，现状/短期/长期方向）

四、AI芯片市场剖析（四大场景：数据中心、自动驾驶、安防、手机终端）

五、AI芯片主要厂商引见（国外，国内）

六、AI芯片瞻望

附：将来两种可能的通用AI芯片技术道路引见（类脑芯片、可重构通用AI芯片）

一、AI芯片概述

1. AI芯片产生的背景

AI的三大关键根底要素是数据、算法和算力。随着云计算的普遍应用，特别是深度学习成为当前AI研讨和运用的主流方式，AI关于算力的请求不时快速提升。

AI的许多数据处置触及矩阵乘法和加法。AI算法，在图像辨认等范畴，常用的是CNN；语音辨认、自然言语处置等范畴，主要是RNN，这是两类有区别的算法。但是，他们实质上，都是矩阵或vector的乘法、加法，然后配合一些除法、指数等算法。

CPU能够拿来执行AI算法，但由于内部有大量其他逻辑，而这些逻辑关于目前的AI算法来说是完整用不上的，所以，自然形成CPU并不能到达最优的性价比。因而，具有海量并行计算才能、可以加速AI计算的AI芯片应运而生。

2. 什么是AI芯片

普通的说，AI芯片被称为AI加速器或计算卡，即特地用于加速AI应用中的大量计算任务的模块（其他非计算任务仍由CPU担任）。

而从广义范畴上讲，面向AI计算应用的芯片都能够称为AI芯片。除了以GPU、FPGA、ASIC为代表的AI加速芯片（基于传统芯片架构，对某类特定算法或者场景停止AI计算加速），还有比拟前沿性的研讨，例如：类脑芯片、可重构通用AI芯片等（但间隔大范围商用还有较长间隔）。

以GPU、FPGA、ASIC为代表的AI芯片，是目前可大范围商用的技术道路，是AI芯片的主战场，本文以下主要讨论的就是这类AI芯片。

二、AI芯片的分类和市场划分

1. 从两个维度对AI芯片停止分类

维度1：部署位置（云端、终端）

AI芯片部署的位置有两种：云端、终端。所以依据部署的位置不同，AI芯片能够分为：云AI芯片、端AI芯片。

云端，即数据中心，在深度学习的锻炼阶段需求极大的数据量和大运算量，单一处置器无法独立完成，因而锻炼环节只能在云端完成。

终端，即手机、安防摄像头、汽车、智能家居设备、各种IoT设备等执行边缘计算的智能设备。终端的数量庞大，而且需求差别较大。

云AI芯片的特性是性能强大、可以同时支持大量运算、并且可以灵敏地支持图片、语音、视频等不同AI应用。基于云AI芯片的技术，可以让各种智能设备和云端效劳器停止快速的衔接，并且衔接可以坚持最大的稳定。

端AI芯片的特性是体积小、耗电少，而且性能不需求特别强大，通常只需求支持一两种AI才能。

相比于云AI芯片来说，端AI芯片是需求嵌入进设备内部的，当在设备内部中嵌入了端AI芯片之后，可以让设备的AI才能进一步提升，并且让设备在没有联网的状况之下也可以运用相应的AI才能，这样AI的掩盖变得更为全面。

维度2：承当任务（锻炼、推理）

AI的完成包括两个环节：锻炼、推理。所以依据承当任务的不同，AI芯片能够分为：用于构建神经网络模型的锻炼芯片，应用神经网络模型停止推理预测的推理芯片。

锻炼，是指经过大数据锻炼出一个复杂的神经网络模型，即用大量标志过的数据来“锻炼”相应的系统，使之能够顺应特定的功用。锻炼需求极高的计算性能，需求较高的精度，需求能处置海量的数据，需求有一定的通用性，以便完成各种各样的学习任务。

推理，是指应用锻炼好的模型，运用新数据推理出各种结论。即借助现有神经网络模型停止运算，应用新的输入数据来一次性取得正确结论的过程。也有叫做预测或推断。

锻炼芯片，注重绝对的计算才能，而推断芯片更注重综合指标，单位能耗算力、时延、本钱等都要思索。

锻炼将在很长一段时间里集中在云端，推理的完成目前也主要集中在云端，但随着越来越多厂商的努力，很多的应用将逐步转移到终端。

推理相对来说对性能的请求并不高，对精度请求也要更低，在特定的场景下，对通用性请求也低，能完成特定任务即可，但由于推理的结果直接提供应终端用户，所以更关注用户体验方面的优化。

2. AI芯片市场划分

以部署位置（云端、终端）和承当任务（锻炼、推理）为横纵坐标，能够明晰的划分出AI芯片的市场范畴，上表，列出了适用于各个市场的技术道路及相应厂商。

1）云端锻炼

锻炼芯片受算力约束，普通只在云端部署。

CPU由于计算单元少，并行计算才能较弱，不合适直接执行锻炼任务，因而锻炼普通采用“CPU+加速芯片”的异构计算形式。目前NVIDIA的GPU+CUDA计算平台是最成熟的AI锻炼计划，除此还有两种计划：

第三方异构计算平台OpenCL + AMD GPU或OpenCL + Intel/Xilinx FPGA

云计算效劳商自研加速芯片（如Google的TPU）

锻炼市场目前能与NVIDIA竞争的就是Google，传统CPU/GPU厂家Intel和AMD也在努力进入锻炼市场。

2）云端推理

假如说云端锻炼芯片是NVIDIA一家独大，那云端推理芯片则是百花怒放，各有所长。

相比锻炼芯片，推理芯片思索的要素愈加综合：单位功耗算力，时延，本钱等等。AI开展初期推理也采用GPU停止加速，目前来看，竞争态势中英伟达仍然占大头，但由于应用场景的特殊性，根据详细神经网络算法优化会带来更高的效率，FPGA/ASIC的表现可能更突出。

除了Nvidia、Google、Xilinx、Altera（Intel）等传统芯片大厂涉足云端推理芯片以外，Wave computing、Groq 等初创公司也参加竞争。中国公司里，寒武纪、比特大陆同等样积极规划云端芯片业务。

3）终端推理

在面向智能手机、智能摄像头、机器人/无人机、自动驾驶、VR、智能家居设备、各种IoT设备等设备的终端推理AI芯片方面，目前多采用ASIC，还未构成一家独大的态势。

终端的数量庞大，而且需求差别较大。AI芯片厂商可发挥市场作用，面向各个细分市场，研讨应用场景，以应用带动芯片。

传统芯片大厂如NVIDIA、Intel、ARM、高通等都积极规划，中国芯片创业企业，如寒武纪、地平线等，也有不俗表现，在一些细分市场范畴颇有建树。

三、AI芯片技术道路

1. AI芯片主要技术道路

目前，作为加速应用的AI芯片，主要的技术道路有三种：GPU、FPGA、ASIC。

（可点击查看大图）

1）GPU

GPU（Graphics Processing Unit），即图形处置器，是一种由大量中心组成的大范围并行计算架构，专为同时处置多重担务而设计。GPU是特地处置图像计算的，包括各种特效的显现，愈加针对图像的渲染等计算算法。这些算法与深度学习的算法还是有比拟大的区别。当然，GPU十分合适做并行计算，也能够用来给AI加速。

GPU因良好的矩阵计算才能和并行计算优势，最早被用于AI计算，在数据中心中取得大量应用。GPU采用并行架构，超越80%局部为运算单元，具备较高性能运算速度。相比拟下，CPU仅有20%为运算单元，更多的是逻辑单元，因而CPU擅长逻辑控制与串行运算，而GPU擅长大范围并行运算。

GPU最早作为深度学习算法的芯片被引入人工智能范畴，因其良好的浮点计算才能适用于矩阵计算，且相比CPU具有明显的数据吞吐量和并行计算优势。

2011年谷歌大脑率先应用GPU芯片，当时12颗英伟达的GPU能够提供约等于2000颗CPU的深度学习性能，展现了其惊人的运算才能。目前GPU曾经成为人工智能范畴最普遍最成熟的智能芯片，应用于数据中心加速和局部智能终端范畴，在深度学习的锻炼阶段其性能更是无所匹敌。

在深度学习上游锻炼端（主要用在云计算数据中心里），GPU是当仁不让的第一选择。目前GPU的市场格局以英伟达为主（超越70%），AMD为辅，估计将来几年内GPU依然是深度学习锻炼市场的第一选择。

另外，GPU无法单独工作，必需由CPU停止控制调用才干工作。CPU可单独作用，处置复杂的逻辑运算和不同的数据类型，当需求大量的处置类型统一的数据时，则可调用GPU停止并行计算。

2）FPGA

FPGA（Field-Programmable Gate Array），即现场可编程门阵列，作为专用集成电路范畴中的一种半定制电路呈现。FPGA应用门电路直接运算，速度快，而用户能够自在定义这些门电路和存储器之间的布线，改动执行计划，以期得到最佳效果。

FPGA能够采用OpenCL等更高效的编程言语，降低了硬件编程的难度，还能够集成重要的控制功用，整合系统模块，进步了应用的灵敏性，与GPU相比，FPGA具备更强的均匀计算才能和更低的功耗。

FPGA适用于多指令，单数据流的剖析，与GPU相反，因而常用于推理阶段。FPGA是用硬件完成软件算法，因而在完成复杂算法方面有一定的难度，缺陷是价钱比拟高。

FPGA因其在灵敏性和效率上的优势，适用于虚拟化云平台和推理阶段，在2015年后异军突起。2015年Intel收买FPGA市场第二大企业Altera，开端了FPGA在人工智能范畴的应用热潮。

由于FPGA灵敏性较好、处置简单指令反复计算比拟强，用在云计算架构构成CPU+FPGA的混合异构中相比GPU愈加的低成效和高性能，适用于高密度计算，在深度学习的推理阶段有着更高的效率和更低的本钱，使得全球科技巨头纷繁规划云端FPGA生态。

国外包括亚马逊、微软都推出了基于FPGA的云计算效劳，而国内包括腾讯云、阿里云均在2017年推出了基于FPGA的效劳，百度大脑也运用了FPGA芯片。中国刚刚被Xilinx收买的深鉴科技也是基于FPGA来设计深度学习的加速器架构，能够灵敏扩展用于效劳器端和嵌入式端。

3）ASIC

ASIC（Application Specific Integrated Circuits），即专用集成电路，是一种为专用目的设计的，面向特定用户需求的定制芯片，在大范围量产的状况下具备性能更强、体积更小、功耗更低、本钱更低、牢靠性更髙等优点。

ASIC与GPU和FPGA不同，GPU和FPGA除了是一种技术道路之外，还是实真实在确实定的产品，而ASIC就是一种技术道路或者计划，其呈现出的最终形态与功用也是多种多样的。

近年来越来越多的公司开端采用ASIC芯片停止深度学习算法加速，其中表现最为突出的是Google的TPU。TPU比同时期的GPU或CPU均匀提速15~30倍，能效比提升30~80倍。相比FPGA，ASIC芯片具备更低的能耗与更高的计算效率。但是ASIC研发周期较长、商业应用风险较大等缺乏也使得只要大企业或背靠大企业的团队愿意投入到它的完好开发中。

AlphaGo就运用TPU，同时TPU也支持着Google的Cloud TPU平台和基于此的机器学习超级计算机。此外，国内企业寒武纪开发的Cambricon系列芯片遭到普遍关注。华为的麒麟980处置器所搭载的NPU就是寒武纪的处置器。

2. AI芯片技术道路走向

1）短期：GPU仍持续AI芯片的指导位置，FPGA增长较快

GPU短期将持续AI芯片的指导位置。目前GPU是市场上用于AI计算最成熟应用最普遍的通用型芯片，在算法技术和应用层次尚浅时期，GPU由于其强大的计算才能、较低的研发本钱和通用性将继续占领AI芯片的主要市场份额。

GPU的领军厂商英伟达仍在不时探寻GPU的技术打破，新推出的Volta架构使得GPU一定水平上克制了在深度学习推理阶段的短板，在效率请求和场景应用进一步深化之前，作为数据中心和大型计算力支撑的主力军，GPU仍具有很大的优势。

FPGA是目前增长点，FPGA的最大优势在于可编程带来的配置灵敏性，在目前技术与运用都在快速更迭的时期具有宏大的适用性，而且FPGA还具有比GPU更高的成效能耗比。企业经过FPGA能够有效降低研发调试本钱，进步市场响应才能，推出差别化产品。在专业芯片开展得足够重要之前，FPGA是最好的过渡产品，所以科技巨头纷繁规划云计算+FPGA的平台。

随着FPGA的开发者生态逐步丰厚，适用的编程言语增加，FPGA运用会愈加普遍。因而短期内，FPGA作为统筹效率和灵敏性的硬件选择仍将是热点所在。

2）长期：三大类技术道路各有优劣，会长期并存

GPU主攻高级复杂算法和通用型人工智能平台

GPU将来的进化道路可能会逐步开展为两条路，一条主攻高端复杂算法的完成，由于GPU相比FPGA和ASIC高性能计算才能较强，同时关于指令的逻辑控制上也更复杂一些，在面临需求通用型AI计算的应用方面具有较大优势。第二条路则是通型人工智能平台，GPU由于设计方面，通用性强，性能较高，应用于大型人工智能平台够高效地完成不同品种的调用需求。

FPGA适用变化多的垂直细分行业

FPGA具有无独有偶的灵敏性优势，关于局部市场变化疾速的行业十分适用。同时，FPGA的高端器件中也能够逐步增加DSP、ARM核等高级模块，以完成较为复杂的算法。FPGA以及新一代ACAP芯片，具备了高度的灵敏性，能够依据需求定义计算架构，开发周期远远小于设计一款专用芯片，更适用于各种细分的行业。

ACAP的呈现，引入了AI核的优点，势必会进一步拉近与专用芯片的差距。随着 FPGA 应用生态的逐渐成熟，FPGA 的优势也会逐步为更多用户所理解。

ASIC芯片是全定制芯片，久远看适用于人工智能

由于算法复杂度越强，越需求一套专用的芯片架构与其停止对应，而ASIC基于人工智能算法停止定制，其开展前景看好。ASIC是AI范畴将来潜力较大的芯片，AI算法厂商有望经过算法嵌入切入该范畴。ASIC具有高性能低耗费的特性，能够基于多个人工智算法停止定制，其定制化的特性使其可以针对不同环境到达最佳顺应，在深度学习的锻炼和推理阶段皆能占领一定位置。

目前由于人工智能产业仍处在开展的初期，较高的研发本钱和变幻莫测的市场使得很多企业望而却步。将来当人工智能技术、平台和终端的开展到达足够成熟度，人工智能应用的提高程使得专用芯片可以到达量产程度，此时ASIC芯片的开展将更上一层楼。

此外，AI算法提供商也有望将曾经优化设计好的算法直接烧录进芯片，从而完成算法IP的芯片化，这将为AI芯片的开展注入新的动力。

四、AI芯片市场剖析

1. AI芯片市场概览

2018年全球AI芯片市场范围估计将超越20亿美圆，随着包括谷歌、Facebook、微软、亚马逊以及百度、阿里、腾讯在内的互联网巨头相继入局，估计到2020年全球市场范围将超越100亿美圆，其中中国的市场范围近25亿美圆，增长十分迅猛，开展空间宏大。

目前全球各大芯片公司都在积极停止AI芯片的规划。在云端，Nvidia的GPU芯片被普遍应用于深度神经网络的锻炼和推理。Google TPU经过云效劳Cloud TPU的方式把TPU开放商用。老牌芯片巨头Intel推出了Nervana Neural Network Processors（NNP）。而初创公司如Wave Computing、Groq、寒武纪、比特大陆等也参加了竞争的行列，陆续推出了针对AI的芯片和硬件系统。

智能手机是目前应用最为普遍的边缘计算终端设备，包括三星、苹果、华为、高通、联发科在内的手机芯片厂商纷繁推出或者正在研发特地顺应AI应用的芯片产品。另外，也有很多初创公司参加这个范畴，为包括智能手机在内的众多类型边缘计算设备提供芯片和系统计划，比方寒武纪、地平线等。

传统的IP厂商，包括ARM、Synopsys、Cadence等公司也都为手机、平板电脑、智能摄像头、无人机、工业和效劳机器人、智能音箱等边缘计算设备开发专用IP产品。此外在终端应用中还蕴藏着IoT这一金矿，AI芯片只要完成从云端走向终端，才干真正赋予“万物智能”。

2. 四大场景的芯片赛道

1）数据中心

在云计算数据中心，上游锻炼端GPU是当仁不让的第一选择。目前GPU的市场格局以英伟达为主（超越70%），AMD为辅，估计将来几年GPU依然是深度学习市场的第一选择。

下游推理端更接近终端应用，更关注响应时间而不是吞吐率，需求愈加细分，除了主流的GPU芯片之外，下游推理端可包容FPGA、ASIC等芯片。竞争态势中英伟达仍然占大头，但随着AI的开展，FPGA的低延迟、低功耗、可编程性（适用于传感器数据预处置工作以及小型开发试错晋级迭代阶段）和ASIC的特定优化和效能优势（适用于在肯定性执行模型）将凸显出来。

2）自动驾驶

自动驾驶对芯片算力有很高的请求，而受限于时延及牢靠性，有关自动驾驶的计算不能在云端停止，因而终端推理芯片晋级势在必行。依据丰田公司的统计数据，完成L5级完整自动驾驶，至少需求12TOPS的推理算力，依照Nvidia PX2自动驾驶平台测算，差不多需求15块PX2车载计算机，才干满足完整自动驾驶的需求。

目前，自动驾驶上游系统处理计划逐步构成英伟达与英特尔-Mobileye联盟两大竞争者。

除了上述两大主力汽车芯片竞争方，百度固然与英伟达协作亲密（Apollo开放平台从数据中心到自动驾驶都将运用英伟达技术，包括Tesla GPU和DRIVE PX 2，以及CUDA和TensorRT在内的英伟达软件），却也采用Xilinx的FPGA芯片加速机器学习，用于语音辨认和汽车自动驾驶。

3）安防

AI正在以极端气势浩荡的节拍全面“入侵”整个安防产业。作为这一波人工智能浪潮最大落地范畴——安防，是必争之地。一大批AI芯片厂商扎堆涌入，其中既有AI芯片创业玩家，也有传统安防芯片霸主海思的强势入局。

总的来说，寒武纪、地平线等AI芯片公司提供的安防AI芯片属于协处置器，需求搭配其他公司的摄像机SoC芯片运用。而海思的安防AI芯片自身就是安防摄像机SoC芯片，只是新参加了AI模块——这也是海思安防AI芯片的最大竞争力。

也要看到，AI与AI芯片离大范围快速落地仍有间隔，其中一大缘由就是工程化艰难——特别是在安防这种产业链漫长而复杂的产业，新技术落地需求长时间的积聚与打磨，以及人力资源的不时投入，这些都是摆在AI与AI芯片企业面前的难题。

4）手机终端AI

手机芯片市场的玩家定位包括：

采用芯片+整机垂直商业形式的厂商：苹果、三星、华为等；

独立芯片供给商：高通、联发科、展锐等；

向芯片企业提供独立IP受权的供给商：ARM、Synopsys、Cadence，寒武纪等。

采用垂直商业形式厂商的芯片不对外出售，只效劳于本身品牌的整机，性能针对本身软件做出了特殊优化，靠效率取胜。独立芯片供给商以相对更强的性能指标，来取得剩余厂商的市场份额。

从2017年开端，苹果、华为海思、高通、联发科等主要芯片厂商相继发布支持AI加速功用的新一代芯片，AI芯片逐步向中端产品浸透。由于手机空间有限，独立的AI芯片很难被手机厂商采用。在AI加速芯片设计才能上有先发优势的企业（如寒武纪）普通经过IP受权的方式切入。

高通很有可能在手机AI赛道持续优势位置，近日发布的骁龙855被称为当前最强AI芯片，比起苹果A12、华为麒麟980，性能提升1倍，并将成为全球第一款商用5G芯片。

五、AI芯片主要厂商引见

在AI芯片范畴，国外芯片巨头占领了绝大局部市场份额，不管是在人才汇集还是公司兼并等方面，都具有抢先优势。特别是美国巨头企业，凭仗芯片范畴多年的抢先位置，疾速切入AI范畴，积极规划，四处开花，目前处于引领产业开展的位置，并且在GPU和FPGA方面是完整垄断位置。国内AI芯片公司多为中小型初创公司，在一些细分市场也有建树，降生了多个独角兽企业。

1. 国外主要厂商

（可点击查看大图）

1）NVIDIA 英伟达

目前AI芯片范畴主要的供给商依然是英伟达，占全球AI芯片50%以上市场份额。英伟达坚持了极大的投入力度，快速进步GPU的中心性能，增加新型功用，坚持了在AI锻炼市场的霸主位置，并积极拓展终端嵌入式产品形态，推出Xavier系列。

英伟达旗下产品线遍及自动驾驶汽车、高性能计算、机器人、医疗保健、云计算、游戏视频等众多范畴。

英伟达具有目前最为成熟的开发作态环境——CUDA ，因其统一而完好的开发套件，丰厚的库以及对英伟达GPU的原生支持而成为开发主流，目前已开发至第9代，开发者人数超越51万。

英伟达还将结合芯片巨头ARM打造IoT设备的AI芯片专用IP，这款机器学习IP集成到ARM的Project Trillium平台上，以完成机器学习，其技术源于英伟达Xavier芯片以及去年开源的DLA深度学习加速器项目。

2）Intel 英特尔

英特尔作为传统PC芯片的老大，也在积极向PC以外的市场转型。

为了增强在AI芯片范畴的实力，英特尔收买FPGA消费商Altera，收买自动驾驶技术公司Mobileye，以及机器视觉公司 Movidius和为自动驾驶汽车芯片提供平安工具的公司Yogitech，收买人工智能软硬件创业公司Nervana。在数据中心、自动驾驶等重要范畴规划扎实。

3）Google 谷歌

Google在2016年宣布独立开发一种名为TPU的全新处置系统。在2016年3月打败了李世石和2017年5月打败了柯杰的的AlphaGo，就是采用了谷歌的TPU系列芯片。

TPU是特地为机器学习应用而设计的专用芯片。经过降低芯片的计算精度，减少完成每个计算操作所需的晶体管数量，从而能让芯片的每秒运转的操作个数更高，这样经过精密调优的机器学习模型就能在芯片上运转得更快，加深了人工智能在锻炼和推理方面的才能，进而更快地让用户得到更智能的结果。

2018年3月Google I/O大会推出TPU3.0。据官方数据，TPU3.0的性能是TPU2.0的八倍，高达 100 petaflops。

Cloud TPU是谷歌设计的硬件加速器，为加速、拓展特定tensorflow机器学习workload而优化。每个TPU里内置了四个定制ASIC，单块板卡的计算才能达每秒180 teraflops，高带宽内存有64GB。这些板卡既能单独运用，也可经过超高速专用网络衔接从而构成“TPU pod”。谷歌已在谷歌云（GCP）开放Cloud TPU的计算才能，协助机器学习专家更快速锻炼和运转模型。

Edge TPU的尺寸约为1美分硬币的1/8大小，它能够在较小的物理尺寸以及功耗范围内提供不错的性能，支持PCIe以及USB接口。Edge TPU优势在于能够加速设备上的机器学习推理，或者也能够与Google Cloud配对以创立完好的云端到边缘机器学习堆栈。

4）Xilinx 赛灵思

2018年3月，赛灵思宣布推出一款超越FPGA功用的新产品——ACAP（自顺应计算加速平台），其中心是新一代的FPGA架构。10月，发布最新基于7nm工艺的ACAP平台的第一款处置器——Versal。其运用多种计算加速技术，能够为任何应用程序提供强大的异构加速。Versal Prime系列和Versal AI Core系列产品也将于 2019 年推出。

Xilinx和Intel两家不谋而合把FPGA将来市场重心放到数据中心市场。

2. 国内主要厂商

国内AI芯片厂商以中小公司为主，没有巨头，多集中于设备端AI ASIC的开发，并已有所建树，如寒武纪成为全球AI芯片范畴第一个独角兽初创公司，其NPU IP已被应用于全球首款手机AI芯片——麒麟970。

但是，中国在FPGA、GPU范畴缺乏有竞争力的原创产品，只是基于FPGA/GPU做进一步开发，这主要与我国在芯片范畴不断缺乏关键中心自主技术有关，FPGA/GPU的技术壁垒已很高，很难有所打破。

（可点击查看大图）

1）寒武纪 Cambricon

寒武纪创建于2016年3月，是中科院孵化的高科技企业。

2018年5月，寒武纪推出第一款智能处置板卡，搭载了寒武纪 MLU100 芯片，为云端推理提供强大的运算才能支撑。等效理论计算才能高达128 TOPS，支持4通道64 bit ECCDDR4内存，并支持多种容量。

1M是寒武纪第三代机器学习专用芯片，运用TSMC 7nm工艺消费，其8位运算效能比达 5Tops/watt（每瓦 5 万亿次运算）。寒武纪1M处置器持续了前两代IP产品（1H/1A）的完备性，可支持CNN、RNN、SOM等多种深度学习模型，又进一步支持了SVM、K-NN、K-Means、决策树等经典机器学习算法的加速。这款芯片支持协助终端设备停止本地锻炼，可为视觉、语音、自然言语处置等任务提供高效计算平台。

寒武纪也推出了面向开发者的寒武纪人工智能软件平台Cambricon NeuWare，这是在终端和云端的AI芯片共享的软件接口和生态，包含开发、调试和调优三大局部，表现了开创人陈天石提出的“端云一体”的思绪。

2）华为海思 Hisilicon

海思半导体成立于2004年10月，是华为集团的全资子公司。

麒麟970集成NPU神经处置单元，是全球第一款手机AI芯片，它在处置静态神经网络模型方面有得天独厚的优势；新一代的麒麟980用于最新的Mate20系列和光彩Magic 2。二者均采用寒武纪的AI IP。

安防是一众AI芯片公司纷繁瞄准的重要落地场景，作为传统安防芯片霸主，海思表示以后的一切IPC芯片新品，都将搭载专用AI模块。

华为近期提出了全栈全场景AI处理计划，发布了两款AI芯片，昇腾910和昇腾310。昇腾910是目前单芯片计算密度最大的芯片，计算力远超谷歌及英伟达，而昇腾310芯片的最大功耗仅8W，是极致高效计算低功耗AI芯片。

3）地平线 Horizon Robotics

地平线成立于2015年7月，是一家注重软硬件分离的AI初创公司，由Intel、嘉实资本、高瓴资身手投。

2017年12月，地平线自主设计研发了中国首款嵌入式人工智能视觉芯片——朝阳1.0和征程1.0。

朝阳1.0是面向智能摄像头的处置器，具备在前端完成大范围人脸检测跟踪、视频构造化的处置才能，可普遍用于智能城市、智能商业等场景。

征程1.0是面向自动驾驶的处置器，可同时对行人、机动车、非机动车、车道线交通标识等多类目的停止精准的实时监测和辨认，完成FCW/LDW/JACC等高级别辅助驾驶功用。

地平线今年又推出了基于朝阳（Sunrise）2.0的架构（BPU2.0，伯努利架构）的XForce边缘AI计算平台，其主芯片为Intel A10 FPGA，典型功耗35W，可用于视频人脸辨认、人体分割、肢体检测等功用。

4）比特大陆 Bitmain

比特大陆成立于2013年10月，是全球第一大比特币矿机公司，目前占领了全球比特币矿机 70%以上的市场。并已将业务拓展至AI范畴，于2017年推出云端AI芯片BM1680，支持锻炼和推断。目前已推出第二代产品BM1682，相较上一代性能提升5倍以上。

BM1880是比特大陆首款面向边缘端计算的低功耗AI协处置器，采用28nm工艺，ARM A53双核架构，RISC-V CPU，其典型功耗2W，int 8精度算力可以到达1Tops。

比特大陆提供端云一体化的AI处理计划，与终端AI芯片不同，比特大陆的云端AI芯片将不会单独出售，只搭载在板卡、云效劳器中提供应协作同伴。

比特大陆将其AI芯片落地产业拓展到了四大类，分别是：安防、园区、聪慧城市、互联网。

3. 互联网巨头入局与新形式

1）互联网巨头入局

全球互联网巨头纷繁高调宣布进入半导体行业，阿里、微软、Google、Facebook、亚马逊等都宣布在芯片范畴的动作。当互联网巨头开端进入芯片市场时，会对芯片行业产生宏大的影响。

首先，互联网巨头追求硬件能完成极致化的性能以完成差别化用户体验用来吸收用户。在摩尔定律行将遇到瓶颈之际，想要追求极致体验需求走异构计算，本人定制化芯片的道路，光靠采购传统半导体厂商的芯片，曾经没法满足互联网巨头关于硬件的需求，至少在中心芯片局部是这样。

因而，Facebook、Google、阿里等互联网巨头都是异构计算的积极反对者，为了本人的硬件规划或方案设计芯片，或曾经开端设计芯片。这么一来，原来是半导体公司下游客户的互联网公司如今不需求从半导体公司采购芯片了，这样的产业分工变化会惹起行业剧变。

其次，互联网巨头制造硬件的目的只是为了吸收用户进入本人的生态，运用本人的效劳，其最终盈利点并不在贩卖硬件上而是在增值效劳上。因而，互联网巨头在为了本人的硬件设计芯片时能够不计本钱。

从另一个角度来说，一旦本人设计中心芯片的互联网公司进入同一个范畴，那些靠采购半导体公司规范芯片搭硬件系统的公司，就完整没有竞争力了，无论是从售价还是性能，具有本人中心芯片的互联网巨头都能施行降维打击。一旦这些硬件公司失去竞争力，那么依赖于这些客户的半导体公司的生存空间又会进一步被紧缩。

总而言之，互联网巨头进入芯片范畴，首先出于性能思索不再从半导体公司采购中心芯片，这冲击了传统行业分工，使传统芯片公司失去了一类大客户；另一方面互联网巨头的生态式打法能够让自研硬件芯片不思索本钱，这又冲击了那些从半导体公司采购芯片的传统硬件公司，从而进一步紧缩了半导体公司的市场。

在这两个作用下，半导体芯片公司的传统运营形式必需发作改动才干追上新的潮流。

2）Designless-Fabless形式

目前，半导体行业范畴的分工，大约能够分为定义、设计、设计定案、制造等几个环节。

今天的半导体行业，最为大家熟知的是Fabless形式，即芯片设计公司担任定义、设计和设计定案，而制造则是在提供代工的Fab完成，如高通，是Fabless的典型代表。

在互联网巨头入局半导体行业后，又呈现了一种新的形式，即互联网公司担任定义芯片、完成小局部设计、并花钱完成设计定案流片，设计效劳公司担任大局部设计，而代工厂担任芯片制造。这种新形式能够称为Designless-Fabless形式。

历史上，半导体公司从传统的IDM走到Fabless形式，主要是由于Fab开支过高，成为了半导体公司开展的包袱，而代工厂则提供了一个十分灵敏的选项。

今天，互联网公司入局半导体后走Designless-Fabless形式，把大量设计外包，则主要是由于时间本钱。互联网巨头做芯片，追求的除了极致性能之外，还有快速的上市时间。关于他们来说，假如要像传统半导体公司一样，需求从头开端培育本人的前端+后端设计团队，从头开端积聚模块IP，恐怕第一块芯片上市要到数年之后。这样的节拍，是跟不上互联网公司的快速迭代节拍的。

那么如何完成高性能加快速上市呢？

最佳计划就是这些巨头本人招募芯片架构设计团队做芯片定义，用有丰厚经历的业界老兵来依据需求定制架构以满足性能需求，而详细的完成，包括物理幅员设计以至前端电路设计都能够交给设计效劳公司去做。

半导体芯片的一个重要特性就是细节十分重要，ESD、散热、IR Drop等一个小细节出错就可能招致芯片性能大打折扣无法到达需求。因而，假如把详细设计工作交给有丰厚经历的设计效劳公司，就能够大大减少细节出错的风险，从而减小芯片需求重新设计延误上市时间的风险。

随着分工的进一步细化，原先起辅助作用的设计效劳公司，将越来越重要，可以与互联网巨头产生互补效应。不少半导体公司也留意到了设计效劳的潮流，并开端向设计效劳靠拢。联发科前一阵高调公开设计效劳业务，就是半导体公司转向的重要标志。

关于国内的AI芯片初创公司来说，善用这种Designless-Fabless形式，关于缩短产品研发周期，提升产品设计程度，都有很大协助。

六、AI芯片瞻望

1. AI芯片开展面临的问题

目前，AI芯片开展速度固然很快，但是如今的人工智能新算法也是层出不穷的，这样一来就没有一个详细的规范，也没有对相应的规格停止固定。其次，如今的人工智能算法都仅仅只是针关于单个应用停止研发的，并没有可以掩盖全方位，所以鲜有杀手级别的AI应用。

在开展过程中，AI芯片首要处理的问题就是要顺应如今人工智能算法的演进速度，并且要停止顺应，这样才干够保证匹配开展。

此外，AI芯片也要恰当的对架构停止创新兼容，让其可以兼容顺应更多的应用，这样可以开发出更好的容纳性应用。

目前全球人工智能产业还处在高速变化开展中，普遍的行业散布为人工智能的应用提供了宽广的市场前景，快速迭代的算法推进人工智能技术快速走向商用，AI芯片是算法完成的硬件根底，也是将来人工智能时期的战略制高点，但由于目前的 AI算法常常都各具优劣，只要给它们设定一个适宜的场景才干最好地发挥其作用，因而，肯定应用范畴就成为开展AI芯片的重要前提。

从芯片开展的大趋向来看，如今还是AI芯片的初级阶段。无论是科研还是产业应用都有宏大的创新空间。从肯定算法、应用场景的AI加速芯片向具备更高灵敏性、顺应性的通用智能芯片开展是技术开展的必然方向。将来几年AI芯片产业将持续炽热，公司扎堆进入，但也很可能会呈现一批出局者，行业洗牌，最终的胜利与否则将取决于各家公司技术途径的选择和产品落地的速度。

2. 半导体行业周期：下一个黄金十年

剖析半导体市场的历史（如下图），我们会看到典型的周期性现象，即每个周期都会有一个明星应用作为引擎驱动半导体市场快速上升，而在该明星应用的驱动力缺乏时半导体市场就会堕入原地踏步以至衰退，直到下一个明星应用呈现再次引领增长。

这些明星应用包括90年代的PC，21世纪第一个十年的手机挪动通讯，以及2010年前后开端的智能手机。在两个明星应用之间则能够看到明显的半导体市场回调，例如1996-1999年之间那段时间处于PC和手机之间的青黄不接，而2008-2009年则是传统挪动通讯和智能手机之间的调整。

半导体过去的十年，是以iPhone为首的智能手机带动的黄金十年。如今的半导体行业，行将进入两个明星应用呈现之间的调整期。

谁将成为引领半导体下一个黄金十年的明星应用？

一个应用关于整个半导体行业的驱动作用能够分为两局部，即应用的芯片出货量以及技术驱动力。

半导体行业是一个非常看重出货量的范畴，只要应用的芯片出货量足够大时，这个市场才干容下足够多的竞争公司，从而驱动半导体行业。有些应用市场总额很大，但是其走的是高售价高利润率的形式，芯片出货量反而不大，这样的话其关于半导体行业的驱动作用就有限。

除了出货量之外，另一个重要要素是应用的技术驱动力，即该应用能否关于半导体技术的更新有着激烈而持续的请求，由于只要当半导体技术不断在快速更新迭代时，半导体行业才干是一个高附加值的朝阳行业，才干吸收最好的人才以及资本进入，否则一旦半导体技术更新迟缓，整个行业就会堕入僵化的场面。

PC时期的PC机就是对半导体有激烈技术驱动力的典型，PC上的多媒体应用关于处置器速度有着永不满足的需求，而这又转化成了关于处置器相关半导体技术激烈而持续的更新需求，直接推进了摩尔定律和半导体行业在90年代的黄金时期。

反之，有一些应用的出货量很大但是其关于半导体的技术驱动力并不大，例如传统家电中的主控MCU芯片，这些MCU芯片出货量很大，但是在技术上并没有激烈的进步需求，不少传统家电多年如一日不断在用成熟半导体工艺完成的8位MCU，那么这样的应用关于半导体来说本质上引领作用也比拟有限。

应用出货量决议了半导体行业的横向市场范围，而技术驱动力则决议了半导体技术的纵向进化动能。回忆之前几个成为半导体行业引擎的明星应用，无不是出货量和技术驱动力双双抢先。

PC出货量（在当时）很大，且是当年摩尔定律黄金时期的主推者。挪动手机在出货量很大的同时，还推进了CMOS／III-V族工艺射频相关电路设计技术的大幅停顿。

智能手机则更是驱动了多项半导体芯片相关技术的开展，例如2.5D高级封装，用于3D辨认的激光模组，触摸屏和指纹相关芯片等，而一个智能手机中包含的半导体芯片数量从射频前端、存储器到惯性传感器数量也极多，因而其能撑起半导体的上一个黄金十年。

所以，能撑起下一个半导体黄金十年的应用，必然在芯片出货量和技术驱动力，这两个维度上都有强劲的动力。

从这个观念动身，能够发现：

只存在于云端的云AI芯片，是作为一种根底设备呈现的，归根到底是效劳2B客户，因而云AI芯片的出货量相比智能手机这样的智能设备要小很多。技术驱动力很强，但是出货量相对较小。

IoT的出货量很大，但是关于半导体技术开展的驱动力就比拟有限。

汽车电子的增长点主要还是汽车的智能化，包括自动驾驶，车联网等等，但是汽车电子的出货量比起智能手机设备少很多。

以上三种应用固然有宏大的空间，但还不能成为支撑力气。

可以起到支撑作用的，揣测应该是在当前智能手机根底上开展起来的下一代个人智能设备，可能是以AI手机的形势呈现。手机首先出货量很大，简直人手一个；此外AI手机上运转的应用程序的不时更新迭代关于手机中的芯片技术提出了激烈而持续的技术进化需求，因而其关于半导体行业的技术驱动力极强。

附1、将来两种可能的通用AI芯片技术道路引见

（1）类脑芯片

这类AI芯片属于神经拟态芯片，从构造层面去模仿大脑，参考人脑神经元构造和人脑感知认知方式来设计芯片，俗称“类脑芯片”。

类脑芯片在架构上直接经过模拟大脑构造停止神经拟态计算，完整开拓了另一条完成人工智能的道路，而不是作为人工神经网络或深度学习的加速器存在。类脑芯片能够将内存、CPU和通讯部件完整集成在一同，完成极高的通讯效率和极低的能耗。

目前该类芯片还只是小范围研讨与应用，低能耗的优势也带来预测精度不高等问题，没有高效的学习算法支持使得类脑芯片的进化较慢，还不能真正完成商用。

目前神经拟态芯片的设计办法主要分为非硅和硅技术。非硅主要指采用忆阻器等新型资料和器件搭建的神经形态芯片，还处于研讨阶段。硅技术包括模仿和数字两种。模仿集成电路的代表是瑞士苏黎世联邦理工学院的ROLLS芯片和海德堡大学的BrainScales芯片。数字集成电路又分为：异步同步混合和纯同步两种。

其中异步（无全局时钟）数字电路的代表是IBM的TrueNorth，纯同步的数字电路代表是清华大学的“天机”系列芯片。

另外，关于片上自学习才能，最近Intel推出了Loihi芯片，带有自主片上学习才能，经过脉冲或尖峰传送信息，并自动调理突触强度，可以经过环境中的各种反应信息停止自主学习。中国研讨类脑芯片的企业还有：西井科技，灵汐科技，深思创芯等。

（2）可重构通用AI芯片

这类AI芯片遵照软件定义芯片思想，是基于可重构计算架构的芯片，兼具处置器的通用性和ASIC的高性能与低功耗，是将来通用AI芯片的方向之一。

可重构计算技术允许硬件架构和功用随软件变化而变化，兼具处置器的通用性和ASIC的高性能和低功耗，是完成软件定义芯片的中心，被公以为是打破性的下一代集成电路技术。清华大学微电子学研讨所设计的AI芯片Thinker，采用可重构计算架构，可以支持卷积神经网络、全衔接神经网络和递归神经网络等多种AI算法。

值得一提的是，DARPA在电子复兴方案（ERI）中提出了三个支柱：资料、架构、设计，用于支撑美国2025 – 2030年之间的国度电子设计才能。这其中每一个方向都设置了一个课题，其中一个课题在架构中提出了软件定义硬件的概念，也就是 Software defines Hardware。

ERI中讲道：所谓要树立运转时能够实时重新配置的硬件和软件，他们具备像ASIC一样的性能，而没有牺牲数据密集型计算的可编程性。

现今的AI芯片在某些详细任务上能够大幅超越人的才能，但究其通用性与顺应性，与人类智能相比差距甚远，大多处于对特定算法的加速阶段。而AI芯片的最终成果将是通用AI芯片，并且最好是淡化人工干预的自学习、自顺应芯片。

因而将来通用 AI芯片应包含以下特征：

可编程性：顺应算法的演进和应用的多样性。

架构的动态可变性：能顺应不同的算法，完成高效计算。

高效的架构重构才能或自学习才能。

高计算效率：防止运用指令这类低效率的架构。

高能量效率：能耗比大于5 Tops/W（即每瓦特停止5×10^12次运算）。

低本钱低功耗：可以进入物联网设备及消费类电子中。

体积小：可以加载在挪动终端上。

应用开发烦琐：不需求用户具备芯片设计方面的学问。

关于可重构架构，大家可能觉得FPGA早就能够这样做了，但实践上FPGA有很多局限性，包括以下这些：

细粒度：由于要完成比特级运算，运算颗粒度必需为细粒度；

配置信息量大：通常为几兆到十几兆字节；

配置时间长：通常需求十几毫秒到几十毫秒；

静态编程：一旦配置完成，不可更改。假如要改动 FPGA 的功用，只能下电或在线重新载入配置信息；

逻辑不可复用：一切电路必需全部装入FPGA ，复用性为零；

面积效率低：每个LUT只能完成一位运算，面积效率只要5%。一个千万级的FPGA只能完成几十万门的逻辑电路；

能量效率低：由于逻辑应用率低，引发无效功耗宏大；

需求特种工艺：FPGA 常常需求最先进的制造工艺，且需对工艺停止特别调整；

电路设计技术：应用者必需具备电路设计学问和经历；

本钱昂扬：目前的FPGA价钱为几千到几万美圆一片。

目前尚没有真正意义上的通用AI芯片降生，而基于可重构计算架构的软件定义芯片（software defined chip）或许是通用AI芯片的出路。

附2：参考文章

[1] AI芯片和传统芯片有何区别？，EETOP，2018-7-20

[2] AI芯片的“战国时期”：计算力将会驶向何方？，AI科技大本营，2018-11-6

[3] 16位AI芯片玩家猖獗涌入！安博会成AI芯片阅兵场，智东西，2018-10-24

[4] 五大趋向看透2018安博会！AI芯片扎堆涌入，人脸辨认成小儿科，智东西，2018-10-23

[5] 比特大陆推首款低功耗边缘AI芯片主攻安防场景，智东西，2018-10-17

[6] 半导体下一个黄金十年，谁主沉浮？，矽说，2018-11-15

[7] 互联网巨头入局芯片，将给半导体产业带来深远变化，矽说，2018-6-24

[8] 人工智能芯片开展的现状及趋向，科技导报，2018-9-29

[9] 中美AI芯片开展现状与趋向，微言创新，2017-11-02

[10] 一文看懂一切类型的AI芯片！（附全球最顶尖AI芯片的企业名录），IT大佬，2018-6-11

[11] AI芯片：一块价值146亿美圆的蛋糕，被三大门派四大场景瓜分，IT大佬，2017-12-06

[12] 250多位专家对AI芯片将来开展的预测，半导体行业察看，2018-9-30

[13] 【世经研讨】AI芯片行业开展合理时，世经将来，2018-7-11

[14] AI芯片最新格局剖析，半导体行业察看，2018-9-9

[15] AI芯片届巨震！英伟达ARM联手打造数十亿AI芯片 | GTC 2018，智东西，2018-3-28

[16] 华为大转型！AI战略重磅发布，两颗AI芯片问世，算力超谷歌英伟达！，新智元，2018-10-10

[17] 华为机密“达芬奇方案”首曝光！自研AI芯片或重创英伟达，新智元，2018-7-13

[18] 独角兽寒武纪已生变数，中国AI芯片抢跑者前路未明，DeepTech深科技，2018-10-11

[19] 甲小姐对话陈天石：AI芯片市场宽广，寒武纪朋友遍天下，甲子光年，2018-10-12

[20] 清华魏少军：大局部AI芯片创业者将成为这场革新中的先烈，AI科技大本营，2018-3-25

[21] 人工智能芯片行业深度研讨，天风证券，2017-11-29

[22] 碾压华为苹果的AI芯片问世！高通发布全球首款5G芯片骁龙855，新智元，2018-12-5