智驾网 2023-05-16 15:27
小鹏汽车刘兰个川:全场景辅助驾驶,减少或降低对高精地图的依赖
分享
在XNGP里面,为了解决这两个痛点问题:首先它是全场景辅助驾驶,在不同的场景下适用同一套方法去解决;二是我们也想尽量减少或降低对高精地图的依赖,这表现在全国和全程都可以用。

由中国汽车工程学会、国家智能网联汽车创新中心、清华大学苏州汽车研究院主办,中国智能网联汽车产业创新联盟承办的 2023中国(亦庄)智能网联汽车科技周暨第十届智能网联汽车技术年会(CICV2023) 将于2023年5月15-18日在北京亦创国际会展中心召开。


CICV 2023计划组织1场闭门会、3场主题峰会、18场专题研讨会、产业投资峰会、智能网联汽车行业创新成果展、第二届“智行杯”C-V2X车路云一体化实践、科技创新发布、中国智能网联汽车产业创新联盟年会等活动,预计邀请200多位顶级专家演讲、80多家机构进行静态/动态展示,吸引来自300多家国内外机构2000余位专业代表参会,共享全球实践、凝聚行业共识、促进产业发展、探索技术创新、强化生态建设、推动应用落地。


以下为现场速记整理,未经审核。


小鹏汽车自动驾驶AI负责人 刘兰个川


刘兰个川:大家好,非常感谢CICV2023给我这样一个机会,今天也非常荣幸站在这里,跟大家分享一下小鹏汽车在智能辅助驾驶领域过去几年做的一些尝试和探索。我是刘兰个川,是小鹏汽车自动驾驶的AI负责人。


小鹏汽车从建立之初就把智能化作为我们的核心战略之一,包括最早期的车型G3上,利用供应商的能力加上我们部分自研能力,做了智能泊车领域的探索。这里几款车对小鹏汽车来言是非常重要的,首先是小鹏旗舰P7,在这款车型上我们首发了高速NGP,建立了小鹏汽车在国内量产辅助驾驶领域的领航地位。接下来到2022年,我们在小鹏P5上,用OTA方式推送了城市NGP,把在高速NGP上沉淀下来的经验进行升级,在城市更复杂的场景下落地。这款车型基本上也是业界第一款搭载了多线半固态激光雷达的车型。


这两款车型基本上除了激光雷达之外,共用同一套计算平台以及传感器。当时是使用的业界非常先进的英伟达DRIVE平台,但是这套平台在现在看来算力上有些老旧。去年年底我们推出了小鹏旗舰智能SUV,小鹏G9,在这款车型上对于计算平台以及所有的智能传感器进行了全面的升级,正是因为这套全新的计算平台和传感器平台的加持,我们可以落地全场景辅助驾驶。


大家可能已经看到了,在P7和P5上面我们所说的是单场景辅助驾驶,也就是XPILOT功能,但是2023年之后的车型基本标配的是全场景辅助驾驶功能。


这两种区别在哪?XPILOT智能驾驶功能所谓单场景,我们在不同的场景下有不同的解决方案,基本上全场景的LCC道路居中辅助,以及泊车场景下所用的VPA记忆泊车功能,以及高速上的高速NGP,城市上面的城市NGP,这些都是在特定的场景下用户才可以激活特定功能。这里面有两个小小的不方便的地方:一是用户在不同场景切换的时候,软件端为了客户的产品体验更加连贯,在后台需要做一些切换动作。切换动作会有很多边缘的场景;二是高速NGP和城市NGP强依赖于高精地图的方案,这就对用户的使用场景进行了限制。


接下来在XNGP里面,为了解决这两个痛点问题:首先它是全场景辅助驾驶,在不同的场景下适用同一套方法去解决;二是我们也想尽量减少或降低对高精地图的依赖,这表现在全国和全程都可以用。


提到XNGP,接下来会跟大家简单介绍一下,小鹏为XNGP的落地上,对感知整个技术栈做了一次重大的升级,也就是XNet。


这里大家可以看到右边是一个比较简单的模型,这是车正在过环岛的场景,中间红色的小车就是自己的自车。大家可以看到在这里环境元素感知里边,我们有动态物体,包括周围的这些轿车以及大型的车辆,包括我们的卡车和公交。除了动态物体之外还有很多静态元素,包括红色的部分,红色部分展示的是道路边缘,还有一些道路的指引线,包括虚线和实线的道路分割线。这里还可以看到停止线以及斑马线等等。这里的静态元素并不是高精地图而是车端实时感知,动画的右上角可以看到,随着我们的车辆不断往前开,如果我们把过去实时感知地图在小小局部坐标系拼起来,大家可以看到这个地图在不断在开地图的状态,有点像打游戏开地图的感觉。我们是怎么样利用车端感知做到这一点的?这就不得不说到全新一代的感知架构XNet,XNet这里面是全新一代多摄像头、持续、全综合的感知大模型。这里有三个关键词:多相机融合、时序融合、全融合。


我简单说一下这几点:


首先为什么要做多相机融合?以往所有的感知技术栈基本都是单相机的,单相机做完之后再通过一些人为手动传感器融合的逻辑,把单相机感知结果拼在一起,也就是我们经常说的后融合。但是在XNet里面我们做了比较大的创新,用了BEV鸟瞰图的架构,进行了多相机的前融合。举个不太恰当的比喻,在后融合有点像盲人摸象,有些摄像头可以看到车的一部分,另外一些摄像头看到相同车的另一部分,我们用一些规则把车辆360度感知重建出来。这里边有大量的问题需要解决,尤其是在城市场景,尤其是在中国比较复杂的城市场景下。使用了前融合之后的算法,基本上把多个摄像头之间的融合逻辑,全部用神经网络通过数据驱动的方法来进行,它变成更加智能的解决方案。


还有一点是时序,没有时序的情况下基本只能对车辆或者道路元素物体位置进行感知,但是一旦加上了时序元素以后,我们就有了历史信息,通过神经网络自己的推演,可以对于动态物体速度以及加速度进行一些推演。这是一个高速场景,对于周围车体速度的预测和意图预测,意图预测现在有些过时了,这里只是展示了一条轨迹。刚才安尔瀚博士提到了,我们里边预测会发出很多条,在车端进行挑选。


有了时序之后可以对周围车辆速度、意图进行预测,这样就可以让我们更精准地识别动态物体的意图,在城市场景的博弈能力可以得到大幅提升。大家可能就说了XNet效果比较好,它的难点在哪?


大家如果对BEV感知比较了解,现在有大量的学术界论文在讨论这些问题,在我看来在这背后真正落地的难点在于大量的工程化。这是我们最开始第一版设想要做这件事的时候遇到的难点:


首先需要大量的标注量,按照我们标注的时长以及人工标注效率,以及我们所需要的量,我们大概做了一个估测,需要两千人。小鹏汽车有一千人的标注团队,我们需要两年才能标完,更不要提后续的迭代。


第二点是大模型如果用单机训练不做任何的优化大概需要300天左右,这台机器并不是我们一般普遍的机器,也是一台拥有8KA A100GPU的机器。


第三点,如果把大模型真的往车端芯片,也就是Orin-X平台上部署,会发现一块Orin-X芯片放不下,大概需要122%的算力才可以。

    

针对这三点进行了大量的优化工作,首先针对我们的标注物,我们自己开发了一套线下的标注系统,这套系统有点像我们对线上传感器融合系统进行了改进和升级,因为在线上的时候你是看不到未来的,但是在线下的时候,我们有这个条件可以做一些非因果的优化。既可以看到历史,也可以看到未来。另外我们车上配备激光雷达,充分利用非因果的结算关系,完成了这样一套全自动标注系统。原来2000人年的标注量,现在16.7天就可以完成,效率提升了近45000倍。

    

第二,时长的问题我们也进行了优化,如果纯粹用软件优化方式,大概能把任务压缩到什么程度?我们尝试了一下,大概能压到32天,但还是太长,没有办法等待训练一次、迭代一次需要等待一个月。后面我们跟阿里云合作建立了中国最大的自动驾驶智算中心—扶摇,也是跟小鹏的名字有点呼应的。在扶摇计算机平台的加持下,可以完成80G并行训练加速,除了硬件在大规模并行运算上也对深度学习训练框架有非常严格的要求。做了这两步的操作之后,可以把训练时长从300天降低到11小时,中间提升600多倍。

    

再讲一下模型的部署,我们XNet真正部署的时候,第一次部署大概需要120%左右的算力,我们就在想它到底为什么这么慢?我们对它整个网络进行了分析,发现最中间最长的一块是TransFormer模块,TransFormer模块也是最近比较火爆的ChatGPT里面的T,其实早些时候在所有车端芯片进行规划的时候,并没有考虑到TransFormer今天会这么火,会得到这么广泛的应用。在此基础上,一般情况下我们的TransFormer运行效率是比较低的。但是小鹏汽车在过去几年的研发积累中有了很多的软硬一体优化经验,所以我们对TransFormer模块注意力机制进行了模改。进行了大量的修改之后,可以达到整体加速3倍的效果,后面我们会发现3倍的效果不太够,于是我们又对模型进行了剪枝以及对不同硬件平台之间进行协同优化,所以后面整体最后效果大概提升了13倍,现在一块芯片上大概9%的算力就可以完成XNet的部署。

    

由于时间有限,我后面AI数据闭环体系就不多说了。

    

最后一点,最近经常跟业界朋友在聊这个问题,GPT对于自动驾驶的影响在哪,大家都说是不是GP出来之后,你们整个感知架构要重写了?在我看来,我们不得不承认TransFormer对于XNet是非常重要的,对于我们自己的实践落地来讲,它对于整个模型性能是非常重要的。它对于整个BEV的感知并不会产生太大的影响,原因也是因为公认的大模型本身输入和输出,其实是基于语言本身信息含量非常密集的信息流上面。而我们的视觉信号比我们的语言信号更稀疏。在这个基础上,我们传统基于XNet架构可能会更有优势一些。刚才也提到预测和规控,语言大模型在我看来是输入一个序列,输出一个序列,有非常好的推理能力。这样非常好的推理能力对预测和规控驳场景下会产生比较大的影响。

    

这是我自己的一点思考,谢谢大家!

x

收藏 0
打赏
电话:010-65030507
邮箱:editor@autor.com.cn
地址:北京市朝阳区朝外大街乙6号朝外SOHO D座5097室
北京智驾时代传媒科技有限公司          Copyright © 2014 - 2022
Autor.com.cn All Rights Reserved. 版权所有 AutoR智驾 智能汽车网
京ICP备14027737号-1      京公网安备 11010502038466号
电信与信息服务业务经营许可证:京B-20211307
关注官方微信