高手计划

为什么亚马逊回声和Google Home还不知道谁在说话

日期:2018-06-07 浏览:39

与亚马逊Alexa和Google助手的对话应该是私人的。例如,在Google Home connected演讲者的宣传片视频中,一对夫妻向无处不在的人工智能询问他们一天的日程安排,并得到个性化的回答。

广告,但这不是Home和Amazons Echo演讲者在当今现实世界中的工作方式。当有人说话时,两家公司的虚拟助理都无法检测到谁在说话。echo需要额外的切换简档步骤来获得个性化信息,并且除了用于购买亚马逊的可选PIN之外,没有提供验证。Google Home根本不支持多个配置文件。

假设Amazon和Google对通过声音识别用户感兴趣是安全的。《泰晤士报》的丽莎·埃达奇科上周发表的一份报告甚至暗示,亚马逊一直在为Alexa开发语音识别功能,不过故事没有给出时间表,也没有说这个功能将实际推出。据制作语音识别硬件和软件的公司说,让这些有联系的说话人理解谁在说话比看起来更加棘手。

在这个2016年的视频中,Google Home知道谁在翻译中迷失了方向,当你和Amazon Echo交谈时,它不会简单地把它听到的一切都传输到云中。(谢天谢地。)取而代之的是,该设备使用本地处理能力来挑选“Alexa”唤醒短语和任何后续命令,这些命令又转到Amazons服务器进行解释。

消除噪音、回声和混响也会使设备试图听到的声音失真。

本地处理还可以执行清理任务,使用算法来减少背景噪声、回声和混响,同时使扬声器的声音更加突出。这样,Amazon就更容易理解唤醒词和其他任何已经说过的话,即使是在房间的另一端,其他人在说话,背景噪音如电视声音。Conexants负责语音和音频的副总裁vinet Ganju说,

广告问题在于:消除噪音、回声和混响还会扭曲设备试图听到的声音,因此识别个人发言者变得更加困难。( Conexant为硬件制造商提供语音识别芯片和软件,并与亚马逊合作开发内置Alexa的设备套件。)

「一方面,你可以将声音与嘈杂的环境隔离开来,所以你实际上可以用声音做一些有用的事情。」“但另一方面,你失去了语音信号本身的一些特性,使得后续处理更加困难。“

感官公司CEO托德·莫泽也承认,对于回声这样的远场设备来说,确定谁在说话可能是一件棘手的事情。感官为设备制造商提供语音识别解决方案,包括识别不同用户的能力,但他指出,随着信噪比的提高,性能会变得更差。

“对于扬声器ID,噪声处理产生的噪声和降级信号的影响非常明显,扬声器验证、远场使用和噪声处理的组合在市场上基本上仍未得到验证,”Mozer说。

Amazon EchoMultiple回答了识别特定声音的问题,但对于解决方案应该是什么,存在不同的学派,以及不同的相关挑战。NXPs消费和工业应用处理器总监Leonardo Azevedo认为,设备制造商可以将原始音频与经过处理的版本分开分析。原始音频馈送将用于识别扬声器并将该信息与处理后的音频一起发送到云。(恩智浦为希望加入亚马逊或谷歌语音助理的设备制造商提供硬件和软件。)

广告广告Azevedo说:「他们没有改变[的声音输入……进来了。」“如果他们把算法中的东西加上去,让[识别说话人”,当他们在处理完命令后把它发送给云时,他们可以说,‘哦,这是利奥,或者‘这是贾斯汀,云知道是谁。“

尽管如此,Azevedo承认这个解决方案并不一定简单。运行单独的算法来识别说话人可能会降低虚拟助理的响应速度。为此,恩智浦正与亚马逊( Amazon )和谷歌( Google )合作,加快本地发生的计算类型,潜在地允许隔离不同属性的多次通过。

分析云中的原始音频也是一种选择,但这也会使响应时间变长。azevedo认为,至少应该在设备本身上进行一些说话人识别。“你越能做洛cally,你能在[做得越好]本地,把它发送到云中的时间就越少,”他说。Google HomeConexant同时认为,它可以通过改进自己的本地处理算法,并通过与sensor等公司合作,在说话人识别解决方案中考虑预处理问题,来解决这个问题。通过实验,公司可以找出不剥夺扬声器独特特性的降噪模式。

「说话人辨识技术对某些种类的变化非常稳健,对其他种类的变化也非常敏感。」“所以我们这边所做的就是确定说话人身份技术对哪种变化更强有力,并且更积极地关注这些事情。我们找出他们更敏感的是哪一个,并且不那么积极地做这些事情,或者根本不做。“

软件助手即使基本的识别挑战得到解决,亚马逊和Google仍有工作要做。例如,Google将不得不在其后端增加对多个配置文件的支持,两家公司都需要能够在运行中在配置文件之间进行切换。

广告传感器Todd Mozer指出了另一个障碍:用户最终必须教会他们的虚拟助理了解谁是谁。这可能会使本应相对无摩擦的产品的安装更加复杂。

Google Home和Amazon Echo想出如何识别不同的说话人似乎只是时间问题。

”在共享产品中执行扬声器ID要复杂得多,因为您不想训练验证或适应错误的用户,而且训练过程给多用户产品增加了一些复杂性,”Mozer说。

Google Home和Amazon Echo想出如何识别不同的说话人似乎只是时间问题,但这些公司可能有更高的优先级,比如语言支持。例如,Google Home只支持美国英语,而Amazon Alexa只支持美国英语、英国英语和德语。NXPs Leonardo Azevedo认为,两家公司都在努力将虚拟助理硬件推向更多国家,这将有助于他们增加销售,但反过来可能会推迟他们在扬声器ID方面的工作。

「当我们与Google和Amazon交谈时,他们都想做这种事情。」“问题是他们什么时候推出。“



联系方式丨CONTACT

  • 全国热线:
  • 传真热线:
  • Q Q咨询:
  • 企业邮箱: