科大讯飞刘俊峰：为什么一辆车不能像人一样什么声音都从嘴来？我们想把这件事情干掉_最新

智驾网 2021-12-20 17:00

科大讯飞刘俊峰：为什么一辆车不能像人一样什么声音都从嘴来？我们想把这件事情干掉

从车的声音管理的闭环上，希望能够随着智能化的场景，随着地点、位置、场景、时间轴、驾驶人的不一样，真正能够表现出丰富多彩、因人而异的声学空间。

12月16日，在广州南沙越秀喜来登举办的世界智能汽车大会主论坛上，科大讯飞副总裁、科大讯飞智能汽车事业部总经理、星河智联汽车科技有限公司总经理刘俊峰发表了题为“AI助力数字出行，打造智能移动空间”的分享。

刘俊峰表示，讯飞在汽车行业里最为大家熟知的是作为语音交互的供应商，但同时讯飞也一直在探索人机交互结合智能汽车如何给作为核心的人带来更好的体验和感受，包括服务价值的升级。

未来，讯飞将在交互、智能服务和改善车内听感各个层面持续投入。希望在AI更多的融入场景上能够为中国的车企和供应商带来更多的企业和场景体验的优势。

以下为发言稿，未经本人审阅。

刘俊峰：

尊敬的各位领导，各位嘉宾，各位老朋友，我今天给大家报告的题目是《AI助力数字出行，打造智能移动空间》。从上午的主论坛，专家对AI也有了一些诠释。其实我们既怕它，又离不开它，甚至有一些层次上我们还非常期待它能做得更好。可以更高效率地帮助我们工作，吸收课程内容。

在汽车这个行业里，讯飞被大家知道的更多的是语音交互的供应商，是因为我们在语音交互这一块有太多的标签，但是我们一直在探索人机交互结合智能汽车应该如何给作为核心的人带来更好的体验和感受，包括服务价值的升级。

所以一方面从交互又带来更多的产品和技术：听说看写。这涉及到一个车和一个人方方面面从交互上涉及到的各种技术。

未来我们的投入方向在这几个大领域，我们认为从未来的智能汽车上一定有三个重点升级的支柱点：

第一，从交互的体验上，从原来单一的语音交互到变成更自然的、多模态的交互。

第二，一辆车既然联网了，它一定是作为一个服务连接的通道，能够有更好的服务推荐给车上那个核心的人。所以不是卖过车就失联，一定是终身保证生命周期之内所有与车、与车厂相关的方方面面都应该全链条地保证。

第三，自动驾驶有很多人在做，但是把车上的声音做成完整闭环的一套智能化体系，这现在并没有人做。讯飞在11月18日发布会之后，大家给我们的反馈也非常积极。这个领域就是汽车的智能生产，一个车的声音非常多，包括车内、车外、与人相关的、与车无关的，这些地方也到了智能化要真正做跨越的时候了。

先说说第一个，智能交互。从语音交互、命令词到随意说到可以免唤醒到可以分座、四音区，这一路过来，讯飞在核心技术领先上都走在了世界之前。而下一步，我们从多模态、情感化和个性化这些地方也有一些非常明确的方向和有标志力的突破。比如说它可以不用唤醒，在车上，你只要跟他说话，他就能分清楚哪句是命令、哪句是你打电话。

第二，车上有这样一个人性化的形象，我更愿意想它就是代表这个车，我更愿意把它作为我的大黄蜂，它除了不能变形，它可以更懂我，这样一个人设是可以真正让你与车有情感化连接的载体。

第三，车上有很多麦克风、Camera，在这个感知的过程里，他可以知道我的一举一动、一言一语，从交互、表达，甚至可以提前跟我说我想要什么。

这个过程其实就是多模态。基于对于人的感知全面性能够形成主动交互的多模态。

第二个层面是智能服务。从整个购车的过程到使用车的过程再到车辆进入到下一个环节，这一个链条里，其实主机厂有非常丰富的内部生态，我们也非常期待与车厂一起把这些内部生态的价值挖掘出来。

比如说在车辆出现了一些故障灯信号时，我们能否知道这样一个信号到底代表什么、到底由什么原因引起的，我们应该怎么解决它，怎么让地面上最近的一个服务机构第一时间联系到这个用户，同时帮他定位好了维修位置和定好相关的配件。

比如说在购车服务环节，大家到了4S店，往往消费顾问跟你讲得最多的就是谈价格，而主机厂做了那么长时间的汽车，在一辆汽车上花了那么多研发费用，我们更希望这样的销售顾问能够讲的更多的是这个车有什么特点、哪块比别人好。

第三个层次，11月18日，我们在广州开了一个智能音频系统的发布会，这样一套系统要解决三大问题：一是能否用一个比较低廉的成本让整个车上听的感觉达到最好。我们提到“让18万的车可以有80万听感的舒适享受”，这就是我们的目标。

因为原来很多做功放、做音响的就是用品牌来赚钱的，它有一些核心基础，但是这些基础在现在的智能化过程里有些已经过时了，我们希望一个合适的载体上能够用充分灵动的算法、长期可升级的技术，让车上的听感变得越来越好。比如说它可以在放古典的时候用古典的音频调节算法，放摇滚的时候可以用摇滚的音频调节算法，因为放什么内容我是知道的，出来什么效果我自然可以调。

其次，要解决车内多座位、多音区交互的问题。

比如说在导航时，如果后面有人说话，你可能会听不清；后面的人电话响了，你在导航，这时候会出现明显的冲突；如果是你带孩子，后面的孩子如果想看动画片，你在导航，同时又来电话，怎么办？在车内有4个位置、6个位置，多人在车内时，我们希望整个声音可以被分区。A座专注听导航，B座可以打电话，后排座给孩子看动画片，这样的车内的听感享受也是以人为核心的交互的突破。

车的各个发声的单元现在都是分散的，包括屏幕、仪表、蜂鸣器、安全带、多媒体、车外的模拟声浪，这些都是由不同的控制单元去做配置的。

但是为什么一辆车不能像一个人一样出什么声音都从嘴来？我们就想把这件事情干掉。

所以我们希望把这三点突破在智能声音和车的结合上把它干掉。

讯飞的视觉一直还是做得不错的，车上既然戴了那么多传感器，我们首先解决让车比人看得更多、反应更多。在自动驾驶还没有到达真正全链化配置时，多了这样一个功能，其实每台车都需要。

之后就是车内的，要基于人的感知来进行更多的提醒和交互。基于多模态的交互是一个摄像头再加上多个麦克风要合理结合才能够真正实现的。

再有一些车内交互的主动意图的判断，比如说车内A、B座分别有两个人，两个人一扭头同时还有声音同时出现时，车内放背景音乐的声音可不可以再小一点？这样一些交互场景都是基于传感器、算法、以人为核心的产品理念逐步形成的，我们也希望把这样的更好的产品和体验带入更多的车企和用户。

讯飞在汽车行业投入了18年，我们已经和国内的绝大多数自主品牌、合资品牌和部分外资品牌都有了合作，累计装车的产品数量已经有3700万，每一年基本上在语音交互领域都是中国第一。随之而后，希望在AI更多的融入场景上能够为中国的车企和供应商带来更多的企业和场景体验的优势。

再给大家报告一下。去年12月，我们与广汽集团成立了一个合资公司星河智联，就驻点在南沙。到了南沙也感到特别亲切，因为这里也是我们对于和广汽合作和智能化与汽车结合的期待上非常重要的一个梦想之地，我们希望有更多的车辆、车主对星河智联的产品点赞，再次感谢大家！

打赏