卢涛:非常感谢有这样一个机会和大家分享Graphcore公司和我本人对自动驾驶方面的看法,我们是一家总部位于英国的新锐AI处理器公司,产品和技术叫做Intelligent Process Unit,这是专门针对AI应用设计的处理器,与之相比,CPU是一个标量的处理器,GPU是一个矢量的处理器,IPU是针对计算图的处理器,今天我和大家汇报的主题是为什么自动驾驶和智能汽车这样的产品需要像IPU这样的计算平台。
过去几年大家都不停地在讲自动驾驶明年就要来了,今年2月份在底特律有一个商业报纸,是以“未来已来”作为标题,描述了大家对2019年自动驾驶的期待,还有很多在路上巡游的各种无人车,大家对2019年都寄予厚望。目前来看,自动驾驶距离人们所预期的和期待的其实还有一定的距离,福特、通用、Oracle这样的公司也承认自动驾驶距离还需要更张的时间。
为什么我们认为可能?最重要的一点是我们不知道我们不知道,我们低估了产品的复杂度,低估了事情的复杂度,所以整个开发的过程当中会不停地有各种惊喜出现,最后导致各种延期Delay,达不到大家的预期。
自动驾驶是一个非常困难的事情,简单回顾一下学习驾驶的经验。最开始在驾校作为新手,不停地想手要放在方向盘上面,换档、离合、打灯,各种各样有意思的行为。随着我们上路的时间多了,突然有一天一个神奇的事情发生了,就是你不需要关注我要换档、游离配合和打灯,需要关注更高层面的事情,比如驾驶策略,更高层级的环境感知以及预测等等。通常我们把L4和L5汽车叫做无人车,实际上无人车这个提法不是特别精准的,其实这样的车并不是没有司机,只不过司机是从一个人变成了一个机器,很核心的点就是我们怎么教会这个机器进行驾驶。
这是非常难的事情,大家来看全球各个地方的交通状况、驾驶习惯、路况、光照、天气情况等等都非常不同,这样就让我们教会机器进行驾驶带来了非常大的难度。人们是在不停地推进技术的发展,希望机器能够更好地看到、更好地听到,以及更聪明地来做决策,采取一些行为,这样就需要更多的传感器,也需要更复杂的算法,还有更大的算力完成这样的事情。
我们来看汽车当中整个计算和处理的食物链,90%的算力都消耗到了感知的处理,包括分割、目标检测和情景识别,如果我们对比一下机器驾驶员和人类驾驶员,感知系统非常有意思。我们是用耳朵听到,配有三个后视镜,我们不需要太关注周围的地图,我们所掌握的信息都是非常离散、非常不完整的信息,但是我们能够进行更高层面的,基于时间和空间的场景感知。
作为汽车驾驶员,所谓的自动驾驶和无人车需要配备10个左右的800万像素或者120万像素的摄像头,同时在汽车各个拐角的地方配有激光雷达等等,通过扫描形成3D点源获得汽车周遭环境的3D地图,这样可以进行情景的感知。
目标检测依然是感知系统当中非常关键的组件,业界当中要么用双极的感知器Detector,或者是单极的,差别就是大家会在处理的精度和处理的性能之间有一个平衡。
现在有些厂商也在看基于点云的感知系统,也是基于Image有很大的区别,所谓的计算机视觉数据结构和深度神经网络都是一个非常稠密的Dense结构,但是点云的数据是非常稀疏化的,传统的计算架构比如GPU处理器,针对这样的数据结构或者算法模型处理还是非常好的,但是对这种非常稀疏化的网络和处理结构,目前的计算架构都处理的不是非常好,我们是不是需要一种新的计算形态处理未来的感知系统?
这是所谓的自动驾驶或者Robot Taxi原型汽车,电动汽车如果把这样的系统装上去,根本就没有办法开这个汽车了,所以对计算能效提出我们需要更高效的计算系统,如果我们往回看整个半导体产业的发展,过去二十多年基本上都是随着摩尔定律的发展不停地用新的工艺、新的制程提高算力、降低功耗,2008年到2009年Density Scale达到了极限,摩尔定律也在减缓,基本上想通过提高处理器的频率来提高性能已经不太现实了,我们可能也是需要一个新的计算架构解决一些新时代的问题。
我们现在讲自动驾驶和人工智能,也就是机器学习,机器学习代表着一种全新的计算业务,比如机器学习之前一个电脑的工作模式就是有程序员编写软件代码,计算机会根据程序员编制的逻辑运行,基本上是这样的过程,最大的区别就是这个时候我们运行的软件是从数据当中学习,通过对数据的学习形成了所谓的参数权重进行运算。
这样一种新的计算业务很自然地在现在的机器学习软件框架当中都以高维计算图来表征,如果把计算图进行拆分会变成百万级、千万级、亿级的顶点到边的大型计算图集合,所以这样的数据后面稀疏地分布在Memory不同的地方。针对这样的计算业务,我们可能需要一个计算系统,就是大规模变形,因为有百万、千万、亿、十亿、百亿,甚至是Trillion的模型,非常擅长处理稀疏化的数据。
很重要的一点就是Memory,比如我们经常提到的内存墙,做了一个新的处理器有100T或者200T的算力,因为Memory的瓶颈,导致我们实际的某个应用当中只能发挥10T、20T和5T的算力,内存在整个AI计算平台当中是一个非常重要的点。我们的手机、电脑、PC、服务器当中用了DDR技术,就是在这样的系统当中大概会消耗320焦的能耗,45瓦功耗的情况下能够获得140GBT吞吐量。当前最领先的Memory技术叫做HBM2,基本上是目前特别高速的GPU或者FPGA当中都有使用这样的Memory,基本上能够把能耗从320PG降到64PG,大概提高5倍左右的Throughput。
再就是Cache,服务器系统当中有25个核和28个核共享了L3Cache,同样的功耗下可以再获得几倍的性能提升,最后做成一个大规模分布式的系统放进去,45瓦的功耗下面能够获得45TBT的吞吐量,相对的通用PC服务器计算架构有320倍的提升,相当于最快的HBM2也有百倍的性能提升。
我们和各种各样的AI处理器公司比较起来,其中有几点是非常大的差异:所有的算法模型都是在片内执行的,今年特斯拉发布的车载处理器,我们就在乎性能到底怎么样,汽车当中需要一个非常低延时的性能,处理器是所有算法模型都是在片内执行的,还有一个超大规模的变形计算能力,就是处理器当中集成了1216个计算处理单元,每个单元当中有6个硬件线程,32个浮点运算器,这样的芯片当中150瓦的功耗能够做到混合精度125TFps的性能。
IPU就是一个Memory Centric Structure,150TFps的性能,大规模的变形,同样一个架构我们支持从边缘到云端,以及同时支持训练和推理的应用,也有支持大量的算法创新,尤其是稀疏化的算法模型,目前在我们的处理器上表现非常好,可能会超过目前已有的算力平台百倍的性能。
这是我们基于IPU处理器开发的车载计算模块,大概就是iPhone大小的尺寸,也就是300瓦的功耗,做到250TFps的算力,这样自动驾驶汽车就不需要背一个三四千瓦的超大规模超算平台,因为同样的IPU技术会被应用在车里面,就是这样的一个模块,同样有些产品形态能够被装载在商用的服务器或者是大规模集群当中,同样要有一个计算平台硬件,同样的一套软件能够被部署在云端,比如训练或者提供在线服务,或者装在自己的数据中心当中来做算法研发和模拟计算。
我们跟汽车产业的同行交流的时候经常有人跟我提这样的问题,今天我用了一个计算平台训练我的算法平台,这样能够有软件计算架构A,要在车里部署的时候是计算平台B,然后再加上软件Y,中间要做大量的算法模型的量化和转换,中间可能就有精度损失,上路之前要做大规模的模拟,通过计算平台A模拟计算平台B,整个算法的开发过程当中牵涉到了三种不同的硬件、三种不同的软件,中间的工作量周期是非常长的。我们架构非常大的价值点就是同样的硬件架构和软件架构,开发到部署、汽车到边缘和云端,我们可以用同样的硬件和同样的软件,这是开发者非常喜欢的一件事情。
L4、L5的自动驾驶或者无人车目前如果使用已有的计算平台大概都是千瓦以上的能耗,虽然现在大家通过不停地优化算法,比如刚才讲的压缩算法模型,仍然需要在能耗比上有一个巨大的飞跃支持这样的L4、L5的计算平台,延时敏感的汽车应用也有大大提高能耗比,车载平台提供了一个非常方便的评估与原型的平台。
x
-
续航901km,岚图知音进军纯电家用SUV市场 2024-06-18 21:07
-
准入门槛下探,小鹏G6已成“智驾全优生” 2024-06-18 17:02
-
极狐阿尔法S5正式上市,新增560MAX版型限时15.18万元起售 2024-06-15 23:29
-
微博CEO首曝享界S9乘坐体验:舒适性、售价超越传统豪华轿车,纯血鸿蒙将上车 2024-06-22 21:50
-
华为发布盘古大模型5.0 2024-06-24 11:17
-
广汽埃安宣布,泰国即将新增6座快充站 2024-06-24 11:29