轻舟智航于骞：海量数据闭环是端到端能力上车的基石_科技

智驾网 2024-07-22 11:08

轻舟智航于骞：海量数据闭环是端到端能力上车的基石

端到端和传感器是两个不同维度的事情，端到端不管是使用激光雷达还是不使用激光雷达，纯视觉或者激光雷达跟端到端并没有直接的关系。视觉的传感器可以用端到端的方法进行训练，加了激光雷达一样可以用端到端的方法训练，其实本质上对端到端并没有很大的影响，两个不同的维度，一个是传感器的维度，一个是算法方法的维度。

2024年7月11-13日，2024中国汽车论坛在上海嘉定举办。本届论坛以“引领新变革，共赢新未来”为主题，由“闭门峰会、大会论坛、10多场主题论坛、9场重磅发布、主题参观活动”等多场会议和若干配套活动构成，各场会议围绕汽车行业热点重点话题，探索方向，引领未来。其中，在7月12日下午举办的“主题论坛六：策略共鸣，未来共筑”上，轻舟智航联合创始人、CEO于骞发表精彩演讲。以下内容为现场演讲实录：

非常感谢许总工和各位现场嘉宾朋友们。特别有幸分享一些关于智能驾驶方面的一些我的理解。最近智能驾驶特别火。L2+、Robotaxi、L4都特别火，市场上很多的声音。也看到这两天小鹏汽车的小鹏总也讲了很多关于Robotaxi、端到端发展的看法。今天特斯拉发布了消息，本来8月8日发布Robotaxi的车型，推迟到了10月份。我们看到整个在自动驾驶或者智能驾驶领域，人类梦想完全无人驾驶已经几十年了，从上个世纪开始大家梦想这件事，已经有很长时间的迭代和发展了，也在技术不断演进。

最近端到端的技术，技术的演进方向有一个比较明确的趋势出现了。使得端到端新的技术趋势对整个的现在行业起到非常大的变化。这个背后很大的逻辑是我们从自动驾驶领域也是泛人工智能的应用，周总讲了算法、算力和数据。这里面数据是非常关键的一点，在这个端到端的领域里面，很大程度上是数据方面发挥了非常大的作用。它的核心的逻辑是我们从产生的模型，把一个自动驾驶的整体的能力拆分成感知、规控等等不同的功能模块工作的。端到端技术是直接从传感器的输入直接经过模型的处理，变成了一个轨迹甚至是直接的命令的刹车油门的控制命令。

对数据的使用其实更加高效，使很多基于规则这样的方法变得不再适用，使得数据价值变得越来越大，端到端是通向高等级甚至无人驾驶技术的必由之路，是真正的实现了数据驱动的方式，来实现研发泛式的变化。

从特斯拉推迟Robotaxi来看，因为特斯拉在端到端方面非常领先，去年7月份马斯克就在推特上发了一些视频。关于端到端的实车展示，即便到现在还没有完全实现有Robotaxi的应用。这个道路还是比较曲折的。真正实现完全无人驾驶的技术路径，应该是我们理解大概这么一个过程：首先其实在传统的ADAS领域，像早期的博世很多的Global的很大的Tier 1已经很好了，但是这种方式是比较早期的阶段，只能实现一些用户体验不是很明显的基础功能。

再往上是L2+，实现一些更加高级的功能，到高速的NOA，到城市NOA，这么一个过程，最终我们相信无人驾驶一定会到来的，只是这条路径会比较长、比较曲折，这里面非常重要的分水岭是OTA，我们可以实现更新，可以使产品越用越好，对于我们作为一家做智能驾驶公司来讲，我们所有的产品都是基于分水岭这边的，我们是做OTA升级的产品。从NOA的产品高速NOA到城市NOA到完全无人驾驶，这个过程比较长，但这个过程一定不断产生商业价值，不断满足用户持续增长的对智能化的需求，不断创造价值，对我们技术栈打磨非常重要，对商业闭环获得更大的商业成功，实现完全的无人驾驶也是非常关键的。

现阶段我们很多车企非常焦虑，特斯拉都做到这个份上，卷得不得了，恨不得Robotaxi明天就来了。现阶段来讲，特别高等级的城市NOA、Robotaxi其实是非常小的一个渗透率。现阶段今天真正能够实现用户价值的特别好的体验在高速场景，界限比较明显，而且成本比较低，这点是现阶段对我们现在广大用户能够马上体验到智能化体验的最好的产品形态。

目前轻舟有接近40万的NOA的装车量，在行业里我们在带有NOA的智能驾驶软件系统我们上车量最大。我们是采用国产化的平台。所以这方面我们已经取得非常好的领先优势。这里面也帮助我们积累了大量的能力，怎样更好地利用海量的数据，实现更高阶的智能驾驶的演进。

我们认为城市NOA是辅助驾驶的天花板，是完全无人驾驶的无门槛。可以看到整体的无人驾驶的场景里面，他比城市NOA更难，但是场景是非常接近的，要处理我们城市中的很多复杂的场景，基本到哪都能开，这是必然的。这个口号我们也是在去年喊出来了，城市NOA是我们未来演进的方向，车企的渗透率很多高端车型上的渗透率也在逐渐加大。

我们看到在最终实现完全无人驾驶，必须要实现大规模数据闭环的能力，这点因为随着AI的发展，算法、算力、数据，数据价值越来越大，我们看到很多的技术演进尤其是一些端到端的模型来讲。我们的模型并没有做任何的变化，其实我的数据质量和数据分布还有数据规模变得更好，使我的体验增加了非常多，这点是数据带来的价值，一方面数据规模大很重要，但是数据的质量、分布也是非常重要的。

像我们目前来讲在中国有几十万台的上车量高价值的数据覆盖以及数据质量，都得到了非常好的支持。所以我主要分享这些关于这几方面做的一些工作。

大家可以想一下，几十万台车每天路上跑，每天产生巨量的数据，如何能高效使用这些数据，使我们能够不断迭代我们的产品，能够以月甚至周为单位，更新我们的产品体验非常重要，数据标注、数据增强、数据挖掘等等情况。

我们会有一些怎样实现自动化的标注，我们会通过一些离线的大模型，实现3D的自动化标注，可以展现的是，这里所有的标注的结果都是自动化生成的，使我们在99%以上的数据规模量上都是不需要做任何的人工干预的，可以用海量的数据。

这是一个统一模型，当有大量的车在路上跑的时候，我们大概每天都有超过十万帧的数据回传，经过大量的自动化的筛选来进行的数据回传，如何进行自动化的标注，这是一个在数据闭环非常重要的一个环节。这个相当复杂的场景完全进行复杂的标注。这样的标注对我们训练车载的模型，起到至关重要的作用。

可以看到我们在不光白天还有夜间自动化标注的情况。

除了3D环境的自动化数据生成，我们在2D的图像自动化标注也做了大量的工作。我们几乎不需要再对车载图像做任何的车载数据的任何人工标注，完全自动化生成的，图像标注不管分割还是在目标检测这些耗费大量的人工的力量的，我们通过完全自动化的方式，使我们可以把实时回传的数据在云端进行自动化标注，实现离线的端到端的模型。

还有用道路几何，会通过对地图预标注的方式，可以在BEV的鸟瞰图里面，在道路几何的完全自动化标注，可以节省60%的人工标注成本，这个方面也是大量使用了基于Transformer的BEV网络，使我们在很多不同场景的泛化能力非常强。我们在中国几乎是所有的高速公路上几乎是所有的地方我们都可以有这样的高质量的数据的回传，大量减少我们的人工标注的耗时的问题。

这是一些像高速和城市的不同情况下，尤其路口的情况下，我们通过自动化标注的高效训练实现道路几何的识别，可以满足我们量产方案里面对轻地图的需求，我们不再依赖于高精地图的使用而是使用不依赖地图的情况，只使用标精地图，和一些环境感知的能力，构建一个可以对实时环境感知的场景。

数据增强方面，刚刚在讲到测试方面，我们有很多的仿真测试，其实在数据增强仿真测试里面有很重要的一部分，因为我们在平时数据采集中，有一些局限，通过数据增强我们可以把我们原始采集的图像，比如像雨后带雨滴，不同情况下的数据增强，测试是不是能够适应这样的条件。

我们在关于语言模型方面，我们每天可以触及到大量的道路的数据，如何在这种道路数据中发现我们比较感兴趣的，我们做了一个非常方便叫做基于视觉的表征的向量数据库，这个数据的收集过程中，我们对图像数据进行了索引，索引以后可以用非常简单的文字检索需要的数据。比如直接检索夜间大卡车，收集相关的场景的片断。更快让我们发现对环境中没有价值的数据。因为我们的数据量规模非常大，检索可以大大缩减我们对于数据挖掘里面的这些速度。

这里展示了基于文字到图像的多模态挖掘能力，比如经常会碰到洒水车的情况，人工找什么地方有洒水车是非常复杂的，通过自动化的图像的索引可以非常轻松用语言文字输入，检索到触及数据里面所挖掘的情况，这是数据挖掘非常重要的作为测试验证的方法。

这个是另外一个场景，挖土车，施工场景在高级辅助驾驶、自动驾驶非常常见的或者非常有挑战的情况，有各式各样的挖土车，通过我们数据挖掘方式，可以把少见的特殊的车辆，能够更快速的把他们找出来，用来训练我们的车载模型，这方面其实就是我们发现了，数据的使用上来讲，不仅仅数据规模大，很大数据的覆盖和质量，如果你的数据规模很大，但是都是同质化的，甚至数据千篇一律没有变化的数据也是有问题的，我们有相对少的训练数据实现大训练数据的效果，减少我们在训练中耗费的训练资源。数据的质量和训练规模一样重要。

像三轮车很常见。像儿童也是我们常见的一些在道路上比较高风险的场景。我们可以通过图像检索方式快速把他们挖掘出来。

这里展示的是离线点云模型训练出来和车载的BEV模型，如果有差别也会作为一个很重要的风险发现的方式，相当于我们在离线模型的能力更强，和车载比对之后，如果漏检和误检，可以更快发掘出来，提升能力。

像很多领域非常火，尤其多模态，这里面我们把多模态的技术应用在自动驾驶领域，尤其是通过离线的点云模型训练，用他实现跨模态的知识蒸馏，优化量产车上，并不存在，比如大规模的量产车并没有激光雷达，但是我们在没有激光雷达的车辆里面，使用了基于离线带三维模型的训练数据，使跨模态的知识蒸馏提升量产车的驾驶体验，我们发现这样的方法对所有的线上模型有非常大的提升，减少了我们在很多量产车上进行重新数据收集的麻烦。

因为我们在大模型量产车里面，不使用激光雷达，以视觉为主的量产车，主要考虑我们是以性价比的方式向我们的主机厂客户提供一个体验好、性价比很好的方案，所以我们大的规模量产车里面不存在激光雷达，我们怎么能够对他们进行更好3D的点云的构建和标注，我们完全使用基于NeRF方法，做了非常高效改进，几乎可以实现厘米级的精度，比如泊车的场景，这是完全不使用激光雷达不使用其他任何所谓的传统三维重建方法，完全神经网络生成的纹理很少的情况下，实现三维重建的场景。尤其泊车非常管用。在中国泊车会有很多的悬空障碍物，通过三维重建技术，可以实现泊车场景的数据标注。

这是我们关于在高速以及比较小的物体，比如小的障碍物的三维重建或者不规则的三维重建的效果。

刚刚讲的三维重建是对固定场景的重建，是一个单时间的，是在XYZ三维重建，四维重建是XYZ和时间的重建，这个其实是我们端到端模型使用非常重要的环节。当我们端到端模型训练的时候，当模型产生不一样的位置的变化的时候，你需要模型给你输出不同的场景的变化，使你的模型产生闭环，这部分来讲是我们比较独到的技术，可以使我们仿真环节下实现端到端的完整网络训练，这是我们在可以更快地减少道路的测试，通过我们云端测试实现整体端到端的方法。

最后我把整体的技术的闭环总结一下，从我们的实时测试到数据回传、到大规模的数据挖掘以及三维重建，进行自动化的场景标注，形成数据集，我们整体的数据闭环是完全靠视觉方案，不使用任何激光雷达，而且积累了非常高价值非常罕见稀缺性场景的数据资产。这个场景不断进行技术迭代。使我们在整个智能驾驶领域的数据的闭环能力是超强的。我们是唯一一家在中国处理几十万台车的道路的自动驾驶公司。数据规模在端到端面向未来的长期的高阶辅助驾驶甚至完全的无人驾驶，数据闭环能力至关重要，这是我们在经历过这段几十万的量产车数据以后获得的心得。

其实最终不管什么样的技术方案，不管是不是使用激光雷达，是做高速NOA还是城市NOA还是自动驾驶，我们是为用户创造价值、社会创造价值，为广大消费者提供更加安全、舒适、便捷的驾驶体验，这是我们公司希望给大家带来的。谢谢大家！

打赏