2019年终盘点:挣脱算力桎梏,国产AI爆发“芯”力量!
回顾2019年的AI行业,在应用场景端已经得到了非常广泛的落地。而“芯片”可能是其中出现频率最高的词汇之一。的确,近几年,随着人工智能算法取得飞速突破,海量数据则需要更高效的处理,对于算力的需求也日益增长。传统的通用GPU效率低成本高,而FPGA量产单价高、算力也逐渐不能满足要求。在成本和算力需求的驱使下,许多AI企业也逐渐意识到,自身的业务不能仅局限于算法层面。于是,自研芯片搭配自家算法,便成为了各大AI企业的发展趋势。
2019年里,国内多家AI企业都推出了自己的AI芯片,其中也不乏亮点,比如阿里平头哥发布的“世界最强”AI推理芯片含光800,迄今为止计算密度最大的单芯片华为昇腾 910等等。下面就让我们来盘点一下,2019年究竟有哪些颇为亮眼的国产AI芯片。
虎贲T710
紫光展锐在今年8月推出的高性能AI边缘计算平台虎贲T710,据官方说法,T710采用了创新的异构双核架构NPU,针对目前广而复杂的AI应用场景和算力需求而生。
参数方面,虎贲T710采用8核CPU架构,由4颗2.0GHz ARM Cortex-A75和4颗1.8GHz ARM Cortex-A55组成,搭载工作频率为 800MHz 的IMG PowerVR GM 9446 图形处理器。虎贲T710包含了 CPU、GPU、NPU、ISP、VDSP等多个处理单元,为不同场景的AI计算提供支持。在功耗能效方面,虎贲T710的能效≥ 2.5TOPS/W,超过业界平均水平30%。
在今年7月份的苏黎世联邦理工学院AI Benchmark排行榜上,当时还尚未发布的虎贲T710便以28097的成绩登顶。虽然在随后的9月就被海思麒麟990 5G超越,但虎贲T710的AI性能依然不能小觑。
应用方面,近日紫光展锐已经宣布,搭载虎贲710和春藤510基带芯片的5G样机已通过中国通信研究院泰尔实验室的全面验证,这意味着很可能在2020年上半年,我们就能看到搭载虎贲T710的手机上市。
麒麟990 5G
今年9月初,华为正式发布了新一代麒麟990系列旗舰级手机芯片。作为最早在手机芯片中加入嵌入式神经网络处理器(NPU)的厂商,这次华为在麒麟990系列上加入了最新的达芬奇架构,AI性能相比麒麟970最高实现12倍的提升。与此同时,麒麟990 5G还是全球首款5G旗舰SoC,且已经在9月底发布的华为Mate30系列手机中被搭载。相比之下,联发科、三星等集成5G基带芯片的SoC还需要到2020年才将会有终端应用产品推出。
参数方面,麒麟990 5G采用了8核CPU结构,由2个主频最高2.86GHz的Cortex-A76大核、2个Cortex-A76中核和4个Cortex-A55小核组成,搭配16核Mail-G76 GPU。NPU采用了华为自研的达芬奇架构,采用NPU双大核+NPU微核计算架构。AI性能方面,在AI Benchmark排行榜上以52403的分数夺得第一,不过在12月也被联发科的5G SoC天玑1000所超越,由此可以看出,AI性能之争愈演愈烈,未来AI性能或许会逐渐成为评价手机芯片的重要考量依据。
含光800
阿里平头哥在今年表现得相当活跃,7月发布了基于RISC-V的处理器IP核“玄铁910”。8月,平头哥又发布了SoC芯片设计平台“无剑”。而在9月,平头哥又发布了自家首款AI推理芯片“含光800”。
与上面两款主攻移动端的AI芯片不同,含光800主要针对云端深度学习推理任务。据达摩院介绍,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI推理芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。在11月7日,阿里巴巴平头哥的AI芯片含光800在MLPerf基准联盟公布的Resnet50基准测试结果中,击败了谷歌TPU v3、英伟达T4和英特尔CLX 9282等获得单芯片性能第一。不过,阿里并没有将这款处理器投入到市场上,而是将其用于阿里生态中,在云端与终端更好的结合,突出软硬结合的优势,并以无剑平台为核心,为企业提供普惠算力。
questcore(求索)
作为四大计算机视觉(CV)独角兽企业之一,依图在今年5月份突然推出了自家首颗AI芯片——“求索”。据介绍,“求索”是全球首款深度学习云端定制 SoC 芯片,定位服务器芯片/云端 AI 芯,可独立使用,将与依图的智能视觉分析软件结合,作为软硬件一体化的解决方案,适用于加速各类视觉推理任务。而这颗芯片的诞生,使得依图实现了从视觉到语音,从软件到硬件的全方位布局,这也正印证了软硬结合是AI落地的正确方向。
在能效方面,“求索”的峰值性能达到11.2T(深度学习推理运算),功耗仅为20W,摄像头单路功耗仅为英伟达GPU P4的30%,同等功耗下,深度学习推理运算性能是市面同类产品的 2~5 倍。这款产品也支持TensorFlow、PyTorch等各类深度学习框架,适用于加速各类视觉推理任务,最高50路FHD视频流硬件解码,另外还支持虚拟化、容器化,可将AI云的弹性计算和调度提升一个量级。
征程2.0
今年8月底,AI芯片创企地平线发布了中国首款车规级AI芯片“征程2.0”。据地平线介绍,征程2.0可以实现L3/L4级别的自动驾驶,基于该芯片架构的 Matrix 1.0 平台每秒可处理 30 帧 720P 视频,并支持 4 路视频同时输入和实时处理,实现20种不同类型物体的像素级语义分割;同时,还可以实现三维的车辆检测,识别场景中的深度信息,进行距离的识别和判断。征程2.0打破了国内车规级AI芯片的空缺状况,与国内车企深度合作的同时,也是促进自动驾驶落地的一股重要力量。
性能方面,征程 2.0 集成了地平线第二代 BPU 架构(伯努利架构)和两颗 ARM Cortex A35芯片,可提供超过4 TOPS 的等效算力,典型功耗2W,满足AEC-Q100标准,每TOPS 算力可以处理的帧数是同等算力 GPU 的 10 倍以上,识别精度超过 99%,延迟少于 100 毫秒,多任务模式下可以同时执行超过 60 个分类任务,每秒钟识别目标数可超过 2000 个。
昇腾910
今年8月23日,华为在深圳总部正式发布“算力最强”的AI芯片Ascend 910(昇腾910)。昇腾910是一款面向训练场景的当今业界最高性能AI处理器,其AI核采用了达芬奇结构,并且还集成了多个CPU、DVPP和任务调度器(Task Scheduler),因而具有自我管理能力,可以充分发挥其高算力的优势。
从规格上看,昇腾910采用7nm工艺,最大功耗为350W,算力可达到 256TFLOPS,比英伟达 Tesla V100 还要高出一倍,是目前全球已发布的单芯片计算密度最大的 AI 芯片。而根据华为官方公布的测试数据,昇腾 910 的 FP16 算力达到 256 Tera-FLOPS,INT8 算力达到 512 Tera-FLOPS。重要的是,昇腾 910 达到规格算力所需功耗仅 310W,明显低于设计规格的 350W。
思元270
AI芯片创企寒武纪在今年6月20日正式推出了云端AI推理芯片思元270,其第一代产品MLU100在2018年5月发布后的一年里,获得了良好的应用效果,在智能视频分析、语音合成、推荐引擎、AI云等多个领域提供了高能效比的解决方案。思元270则是寒武纪完善其产品体系的重要产品。
参数方面,思元 270 基于寒武纪自研架构 MLUv02 设计,采用台积电 16nm 制作工艺,性能是上一代 MLU100 的 4 倍,算力达到 128TOPS(INT8);同时兼容 INT4 和 INT16 运算,理论峰值分别达到 256TOPS 和 64TOPS;支持浮点运算和混合精度运算。功耗 70W~150W。同时,思元 270支持视觉、语音、自然语言处理以及传统机器学习等多种人工智能应用,可应用于推荐引擎、NLP、智能视频分析等多种场景。
DeepEye1000
今年11月的高交会期间,云天励飞正式发布了DeepEye1000芯片。DeepEye100专注边缘和端侧视觉应用,采用22nm工艺,基于多核异构并行计算架构设计;内置四核神经网络处理器,可支持INT16 / INT12 / INT8混合精度量化数据;采用存算融合体系架构和可重构计算阵列,可以灵活高效地执行各种深度学习算法模型的推理计算,峰值算力达2.0Tops。
其中,DeepEye1000神经网络处理器由云天励飞自主研发,深度定制指令集,定制指令多达160条以上,支持主流神经网络模型。神经网络处理器采用可重构计算阵列,支持灵活可编程计算流,计算效率超过99%。另外,DeepEye1000还支持H.264和H.265解码,同时可支持4K@30fps视频、4路高清视频并行的实时分析。
TAIHANG 1520(TH1520)
专注于语音算法的思必驰,早在今年1月初就发布了旗下第一款AI芯片TAIHANG(TH1520)系列,这款AI聚焦于语音应用场景的AI专用芯片由思必驰投资的独立公司深聪智能打造。据介绍,TH1520主要面向智能家居、智能终端、车载、手机、可穿戴设备等各类终端设备。解决方案包含算法+芯片,具有完整语音交互功能,能实现语音处理、语音识别、语音播报等功能,支持离线语音交互。
TH1520 还进行了算法硬件优化,基于双 DSP 架构,内部集成 codec 编解码器以及大容量的内置存储单元。同时,TH1520 采用了 AI 指令集扩展和算法硬件加速的方式,使其相较于传统通用芯片具有 10X 以上的效率提升。此外,TH1520 在架构上具有算力及存储资源的灵活性,支持未来算法的升级和扩展。兼具低功耗及实用性,采用多级唤醒模式,内式的参考音,能在各类 IOT 产品中灵活部署应用。
邃思DTU
12月11日,AI芯片创企燧原科技在上海发布了其首款云端AI训练芯片邃思DTU,据燧原科技表示,搭载了邃思DTU的AI加速卡云燧T10已经可以实现量产,并预计2020年第一季度上市。值得一提的是,燧原科技是由腾讯投资,并且已经与腾讯针对通用人工智能应用场景的项目开展了密切的合作。这意味着BAT都已经相继在AI芯片上作出了自己的布局,未来云端计算或会成为互联网公司最重要的战略之一。
参数方面,燧思 DTU 采用 12nm FinFET 制作工艺,集成有 141 亿个晶体管,FP16算力达到86TFLOPS;具备 16Gbps 的 PCIe 4.0 接口和 25Gbps 的 ESL 高速互联;支持 CNN、RNN、LSTM、BERT 等网络模型以及 FP32、FP16、BF16、Int8、Int16、Int32 等数据类型,最大功耗为 200W。
昆仑
早在2018年7月份,百度就已经发布昆仑云端全功能AI芯片,当时号称业内设计算力最高的AI芯片。不过作为BAT三巨头中的一员,编者还是把他放进2019榜单内。昆仑芯片面向云计算、边缘计算、AI,ERNIE推理性能比传统CPU、FPGA要快3倍,同时可用于自动驾驶、语音识别、图像处理、自然语言处理、深度学习(包括中国自主的PaddlePaddle)等等。在12月19日,百度也正式宣布已经将昆仑应用到百度昆仑云服务器中,并已上线启用。
据官方介绍,昆仑芯片基于百度自研的XPU神经处理器架构,通过三星2.5D I-Cube封装工艺,经由中介层(Interposer)连接SoC主芯片和两颗HBM2高带宽内存,统一封装在一块基板上,提供勾搭512GB/s内存带宽,并支持PCIe 4.0 x8,可在150W功耗下提供260TOPS(每秒260万亿次操作)的算力。
小结:
当然,除了上面提到的这些AI芯片,在2019年还有诸如地平线旭日2.0等高质量的国产AI芯片诞生,今年市场对于AI芯片的热情从BAT三巨头都纷纷入局AI芯片便可窥知一二。而从账面性能上来看,国产AI芯片已经追平甚至部分超过国外如英特尔、Nvidia等芯片巨头。不过,与硬件性能相比,AI芯片与其相适配的算法结合才能发挥其最大效用,而且如何实现场景落地也是众多AI创企们所为之头疼的难点。但从BAT以及其他国内AI企业与应用端的合作,及其共同创建的生态圈来看,国内AI芯片产业明显正往着正确的道路前进。
关注电子行业精彩资讯,关注华强资讯官方微信,精华内容抢鲜读,还有机会获赠全年杂志
关注方法:添加好友→搜索“华强微电子”→关注
或微信“扫一扫”二维码