AutoR智驾 2021-05-26 15:39
国防科技大学徐昕:智能汽车优化决策的机器学习方法
分享
智能汽车优化决策的强化学习方法进一步解决大规模空间高效的特征表示以及它的在线的自评价的学习算法。

下面有请国防科技大学智能科学学院智能科学技术系主任徐昕演讲,演讲主题是“智能汽车优化决策的机器学习方法”。

    

徐昕:各位专家、各位同仁、各位老师和同学们上午好!很高兴有这样的机会能够跟大家共同探讨一下智能汽车优化决策的机器学习方法方面的研究和体会,也感谢汽车工程学会包括论坛主席高院长的邀请。

    

我的报告主要分为五个方面:

    

跟大家共同探讨关于智能汽车的优化决策问题。前面大家围绕决策还是希望让智能汽车更加安全、更加舒适或者更加能够适应环境的变化,我们怎么来实现优化的决策。这里面有了机器学习以后重点探讨强化学习的理论框架以及我们研究新的相关进展,解决这里面的特殊问题。同时给出机器强化学习智能汽车优化决策的具体实例。

    

我们回顾智能汽车的发展要解决的技术难点就是要解决怎么来提高系统的学习能力?因为我们人工设计的规则或者系统可能缺乏对环境的适应能力或者它的自我优化能力。

    

这里面我们利用各种获得的数据,利用机器学习方法发展智能汽车。目前随着人工智能的发展,机器学习方法越来越多。我们2003年也实现了高速公路的自主驾驶,速度达到了130公里每小时,2021年实现长安到武汉长距离自主驾驶,国内、国外我们的步伐也是在紧跟。

    

我们自主驾驶系统在城区、快速路以及校园道路环境也开始进行了大量的自动驾驶测试,但是也发现了问题,不管感知还是决策或者控制层面还有许多需要实现优化的问题。我们机器学习怎么在这里面能够很好的实现类人的学习能力?包括自我强化学习、模仿学习等等都是值得我们去关注的。

    

左下角通过了长沙的隧道,这里涉及到没有外部的辅助定位和各种各样的环境信息比较复杂的时候,包括光照等等,我们也都比较好的实现了智能的自动驾驶的功能。

    

我们有些情况下还涉及到人工干预,所以我们自动驾驶怎么实现决策行为系统的泛化,这是我们研究和解决的问题。

    

我们规划有时还要涉及到全局的路径规划、任务规划,这个规划和决策之间也有一些耦合,我们在不确定条件下也要解决一些快速的规划和我们的实施重规划的问题。它跟我们决策系统之间也是密切关联的,相互之间有些联合的混合问题。

    

我们的决策跟控制之间也是有大家值得关注的,高院长提到复杂约束条件下包括车辆动力学特性,在这些约束条件我们运动和规划能力如何进行一体化设计?我们优化更多从运动控制、车辆动力学特性角度要进行优化设计。当然决策系统也要考虑设计相互之间的耦合性,因为我们有些决策规则是不是能够得到运动规划系统或者执行系统有效的支撑?这也是我们在解决优化问题的一个研究的出发点。

    

比较大的趋势就是要实现决策系统的一种自主学习和智能发育。

    

大家看机器学习的分类包括三个大的方面:从有监督的学习,更多的是对标签数据的学习;另外也涉及到无监督的聚类分析;同时强化学习也是有发展前途的,它更加强调机器人系统或者智能系统,类似与我们的高等动物和人类一样,通过环境的交互,它主要实现状态转移过程中的虚幻的决策行为优化,它获得外部反馈只是评价性的。

    

从机器学习两个性能要求,我们要实现这样的目标一个是有效的对大规模空间进行逼近,因为我们观测的动态和决策空间可能是连续高危的。另外还要有推广和泛化能力,我们学习完的东西能不能在相似的场景下得到推广和应用,具有举一反三的能力。

    

第二部分回顾强化学习的主要理论框架,时间有限,有的不见得展开。强化学习强调在不确定环境中交互学习,获得评价性反馈信号。因为它不需要人类给出监督性的期望信号,而是评价反馈,而且可能是稀疏的。

    

现在它跟我们的运筹学很多研究也是密切相关,我们动态规划,我们知道运筹学里面解决MDP模型已知环境下,但是我们(52:19)对不确定性的处理。另外近似是对高危大规模空间的逼近。

    

这两个领域逐渐融合到一起,所以也叫强化学习与自适应动态规划叫MDP,马尔科夫决策过程涉及到状态空间,有时是连续的,还有动作空间以及我们状态转移概率它可能是随机的,同时可能是一个确定性的系统。

    

我们的学习目标是无限时域的期望目标,当然我们有时候后面有时间会介绍我们在有限时域或者滚动时域强化学习目标,当然还可以采用无限平均指标。相应体现了我们对决策或者控制的优化的指标。

    

学习最后系统输出是AT,根据状态XT的观测我们怎么来获得行为决策或者是概念分布的选择我们行为的概念分布。

    

从基本模型描述,一个是值函数,它是描述了我们采用某个状态出发我们获得了期望的代价的估计,同时我们也最优函数满足方程,这是我们最优规划的原理。

    

强化学习的算法框架分为基于值的强化学习,主要是刚才讲的值函数,怎么有效的估计,对我们当前的策略派进行有效评价的时域差值学习,包括Q-学习直接逼近最优值函数。派函数是怎么利用策略估计来优化我们对最优策略的逼近。

    

我们值得关注的一类算法是策略迭代,我们更多发展到近似策略迭代,我们进行精准策略迭代很困难,因为空间比较大,而且模型未知,而且是基于观测数据。我们初始策略派对值函数进行估计以后,我们进行进一步回报值函数进行策略优化,同时过程是迭代过程。

 

我们更多强调在线学习,同时对值函数和策略进行学习,更加适应在线交互学习。

    

强化学习我们关注大规模状态或者行为空间怎样进行特征的表现或者逼近,另外降低样本的需求,比如采用高效的算法迭代机制以及我们提升算法学习的安全性和它的可靠性的研究。

    

第三个方面强化学习特征表是滚动优化机制。从特征表示,比如打乒乓球机器人,它是高维的,它是连续的高维状态空间,同时动作也是连续或者离散的一些动作。

    

我们强化学习其中一类特征表是大家可以关注它的核方法,核方法的特色是我们引入核函数的隐含特征以后,我们在核空间里有效的逼近未知的泛函,派不用显示构造,它的类级等于两个样板点的点。

    

这里面要解决一个提供风险最小化的问题,核函数表示过程有可能出现,比如我们也可以发展近似稀疏化方法。

    

我们也发展了基值函数的估计,同时我们可以实现近似策略迭代的过程,这一类KLSPI算法,前两年有学者认为KLSPI算法比较适合机器人、智能车面向实时系统的优化决策和控制问题。

    

当然我们还可以发展在线学习特征的稀疏核表示,针对这些学习可以设置Kernel表示实现快速估计,同时它是策略的优化学习。

    

我们可以实现多核加权,多核加权以后联系。

    

我们对比了单核学习方法和多核,用多核得到的性能的优势。

    

我们设计了在线的学习控制,我们针对控制问题可以设计相应的二次回报函数,相应的来设计基于多核的critic进行值函数,他们多核之间加权系数也可以结合全智能学习自动根据观测数据进行自动的确定。

    

这是我们相应的在线学习算法,critic网络更新和Actor网络更新实现在线交互的网络状态,相应的我们也比较了单核迭代和多核迭代,多核迭代实际是对宽度不敏感,而多核加权以后我们的性能比较稳定。

    

我们针对倒立摆平衡问题,可以蓝色曲线是多核算法,它的性能已经优异,它优于采用线性学习最优控制方法。

    

在我们的模式识别当中也关注到流形,它可以把图像高维分布映射到简单的低维线性的曲面。

    

流形特征表示里我们也列了图,我们可以对高维数据进行线性聚类以后保持既定关系的目标函数,同时在影射空间里来改造这样的特征表示,我们利用矩阵特征值和特征限量来实现优化目标。

    

另外我们引入图和概念,一个是度量近邻关系,另外是对全局关系加权表示,我们可以转化优化问题来保持两类特征映射关系特征变换的提取过程,转化成特征限量的计算。

    

它在倒立摆过程中控制最优的特征。包括我们在实验系统中,也可以获得更好的学习控制的收敛性以及板球的平衡运动控制系统。

        

我们深度网络跟强化学习结合也很多,深度网络更多的是卷积或者设计编码,我们能不能把它编码成更加有意义的特征?我们也发展了面向基于图像输入的,可以进行深度的自编码设计。

    

这里面我们引入了状态的标记,我们可以把一个分层的ERM结构设计这样的结构来进行有效深度特征映射的训练。我们基于这样的特征,还可以有效的再引入一些线性泛化编码关节控制器对critic网络进行设计,这样可以有效的降低特征表述的维数。

    

这一类问题,是基于图像高维输入,让我们来实现快速的收敛性,基于编码以后,我们在低维编码空间上来进行在线的强化学习。

    

给大家介绍一下强化学习特征表和相应的滚动优化机制,滚动优化机制今天没时间介绍了,我们自动驾驶,传统的基于规则、模糊逻辑和一些方法它的参数学习也是需要解决的,我们强化学习优势,比如我们针对典型的换道决策,我们可以建立MDP决策过程,我们一个是基于我们周边车辆的状态特征表示和我们的优化目标,这里面我们也涉及到安全性、快速性、平稳性等多个目标的加权,这里可以设计不同驾驶风格的目标函数。

    

我们要实现优化决策过程,我们也是基于红旗的实时自有度、高逼真度仿真模型来建立仿真学习的环境,我们可以模拟车流和换道决策的过程,来发展近似策略迭代的驾驶决策方法,它的收敛性比较好,特别我们引入基于核的KSPI、KLSPI,它有利的实现对初始策略条件下迭代滚动规划。

    

红色的是自主车,蓝色是其他车辆,模拟不同车流条件下换道、超车行为。在仿真中可以对决策模型进行大量的测试和优化。

    

我们进行模拟有效性测试,根据传感器获得周边车辆信息以后,我们的模型输出在哪些情况下能够进行保持车道,有的是换道,有的是超越其他车辆,我们对这些典型的决策行为有效性的验证。

    

在我们周边的快速路上我们都进行了车辆模型有效性测试,实际是我们感知的输出都描述了车辆周边的状态,比如它的相关车距、车速等等,这也是我们测试的结果。

    

我们还开展了一个复杂道路场景的优化决策,这里面也涉及到我们在一些比如没有红绿灯的左拐路口,包括我们从匝道汇入车流,我们的思路是研究自主路的决策和运动规划一体化设计。高院长也提到了我们智能车本身运动都会影响决策输出。所以我们研究针对这些复杂场景来研究智能车,一个是高逼真度的仿真模拟,同时考虑侧向轨迹规划策略决策和运动规划的一体化设计技术。

    

我们也可以看出,比如红绿灯左口情况下我们决策也获得了比较好的跟周围其他社会车辆比较安全、高效的决策交互的策略,这也是典型的不同时刻下智能车左拐情况下,考虑各个方向、各个路口动态车辆相互之间智能化的优化决策的过程。包括我们涉及到从匝道汇入以后,从侧面匝道进入多车道车流,获得比较优化的决策结果。

    

同时进行了定量比较于USD-KLSPI算法,平均是5秒、5.03秒,也优于一些专家策略,同时成功率达到100%。有些条件下等待时间过长或者跟其他车辆交互失败的时候,也会存在成功率的问题。我们找到了汇入多车道车流的定向结果,我们机器学习。

    

黑色框是我们智能车,其他红色都带有等待或者是实现跟其他车辆安全性的交互,包括动态避障等等。仿真中也考虑车辆本身运动规划的特性,所以我们决策和规划系统之间有比较好的一体化规划设计思路。包括多车道匝道并入场景,涉及到匝道进入主要车道时会汇入不同的车流情况,获得比较好的优化决策过程。

    

最后结论我们智能汽车优化决策的强化学习方法进一步解决大规模空间高效的特征表示以及它的在线的自评价的学习算法等等。

    

第一.数据方面。我们研究新的可迁移的强化学习包括分层强化学习以及源学习的方法。

    

第二.先验知识也需要考虑。怎么来融入统一的优化决策的框架?融入先验知识的框架。

    

第三.进一步解决强化学习参数敏感性与可解释性问题。有时要实现安全决策,可能这个模型比较差,我们有点怀疑它是不是足够安全?包括它相应的参数是不是过于敏感等等。

    

第四.仿真建模与物理模型的差异、模型不确定性/错误。

    

我的报告就到这里,非常感谢大家!谢谢!

x

收藏 0
打赏
相关标签:
电话:010-65030507
邮箱:editor@autor.com.cn
地址:北京市朝阳区朝外大街乙6号朝外SOHO D座5097室
北京智驾时代传媒科技有限公司          Copyright © 2014 - 2022
Autor.com.cn All Rights Reserved. 版权所有 AutoR智驾 智能汽车网
京ICP备14027737号-1      京公网安备 11010502038466号
电信与信息服务业务经营许可证:京B-20211307
关注官方微信