从语音识别原理到更好的语音界面设计

Pursuer设计机构

北京/设计爱好者/5年前/1498浏览

版权

从语音识别原理到更好的语音界面设计

Pursuer设计

在设计良好的语音用户界面时，了解该技术的工作原理总是有好处的。

语音用户界面（VUI）的一个关键组成部分是自动语音识别（ASR）系统，它可以将用户的语音转换为文本。VUI是任何语音应用程序/设备的接口。从Siri 、Amazon echo Alexa、google home 、小冰到国内的叮咚、天猫精力、小爱同学、你好问问等等。

有许多提供ASR系统的免费和付费服务。那么在选择系统时，请务必牢记以下两点：

1》数据的稳健性和准确性根据

经验，公司数据越多，语音识别效果就越好。

2》良好的端点检测

端点检测是指ASR系统如何知道用户何时开始或结束讲话。尝试寻找提供最佳端点检测的服务。

同样，并非所有的ASR工具都具有高级特性，如N-best列表，从最便宜的ASR工具开始可能会更快，但是如果识别准确度不符合标准，或者端点检测效果不佳，那么您的用户最终会放弃使用该产品。因此，在下文，我们提出了几点需要注意的事。

1.强行介入

Barge-In是内置于VUI中的功能，允许用户在对话期间随时中断系统。决定启用它将很大程度上取决于您计划的VUI的类型。如果你的VUI要说一长串的介绍。那么，在这种情况下，用户可能想中断并中途停止这种操作。

在决定策略时，您需要记住是否要启用用户所说的任何内容，或仅使用唤醒词。使用唤醒词是最常见的VUI策略。当Alexa播放歌曲时，用户可以随时停止播放。如果没有使用语音命令将无法停止播放。

2.超时设定

VUI需要知道用户何时开始讲话以及何时讲话结束。知道用户何时停止讲话被称为超时设定。提供最佳超时对于获得良好的VUI体验至关重要。

ASR引擎可以决定超时的条件，比如说：

1》语音结束超时

知道用户什么时候说完，即完成了对话，是优秀VUI系统最重要的特征之一。这有时被称为终点检测。一旦用户停止说话就给予回应是不自然的。在继续对话之前，系统需要暂停一段时间。这是一个基本的对话礼仪。某些ASR引擎允许您配置此暂停，也称为语音结束超时。使用1.5秒结束语音超时是一个很好的经验法则。但是，有些情况下您需要更长的结束语音超时时间，例如说长字符串或数字时。对于用户只需要提供一个单词响（如“是”或“否”）的情况，较短的超时工作属于正常情况。

2》无语音超时（NSP）

如名称所示，此超时用于检测是否检测不到语音。它与语音结束超时不同，在这种情况下，用户语音有一个具体的开始和结束。这个超时通常在10秒内或者更长的时间。这些超时的处理方式有多种，向用户显示一系列可以完成事情的方法或行为。

3》言语太多

这是一种罕见的情况，当用户说话太久而没有任何停顿时。在大多数情况下，您不需要处理太多语音（TMS）超时。然而，如果你想加入这项功能，那么一个好的经验法则是系统超时7-10秒。

合并超时对于了解用户说话的时间节点至关重要。

N个最佳列表

当用户与VUI交谈时，语音识别系统会对所述内容返回多个回应。它为每个结果分配一个置信度值，并通常选取具有最高置信度值。简而言之，置信度值是指示系统对特定结果有多少信心的百分比。

识别引擎通常不会只返回一个结果。它返回一个N-best列表，该列表是它认为用户可能按照可能性顺序说的内容。它通常是前5-10名的结果。

如果您已设计系统以在狭窄的域中进行回答，那么N最佳列表很有用。例如，在提供有关动物的信息的VUI中，当您说“给我看一个獾”时，ASR工具可能会将其解释如下：

给我看她的徽章：92％的推荐

告诉我一个獾：89％的推荐

既然你已经知道这个VUI是关于动物信息的，它可以搜索动物名称的提示并选择第二个结果，即使它没有最高的置信水平。

如果第一个答案无效，则N-best列表的另一个用途是纠正信息。

自动语音识别工具（ASRT）面临的挑战

许多研究表明，自动语音识别工具具有超过90％的准确度，但是这是在理想条件下。一个ASR工具的理想条件是一个安静的房间里一个成年人有一个好的语音交互过程。但是，大多数现实生活条件并不理想。

1》噪声

处理噪音是当前ASR发动机最困难的挑战之一。噪声是指任何嘈杂的环境，背景中的电视，多人同时讲话或当用户在VUI正在收听时与另一个人讲话时的侧面讲话。一些VUI可以检测噪声并要求用户移动到噪音较小的环境。

2》孩子

ASR工具要准确识别儿童的声音还是比较困难的。由于声带较短，儿童的声音更高。迄今为止，识别这种类型的语音的数据较少。儿童往往口吃和重复的话，这是ASR工具的另一个挑战。很像早先的问题，事情正在改善。

3》名称，拼写和字母数字

ASR工具更容易识别更长的短语，例如“是的，我会”，而不是像“是”这样的较短的答复。名称，拼写和字母数字字符串也很难识别，并且通常为这些输入提供GUI输入是有意义的。'Karan'这个名字经常被误解为'Karen'。要求VUI致电Karan可能会意外地错误地称错了人。所以这项技术也正在改进。

4》用户数据隐私

在设计语音界面时，务必确保不要存储私人数据，除非绝对必要。当你存储这些数据时，确保用户知道并且有拒绝访问的选择。即使设备在不停地收听，用户说出唤醒词之前的任何数据都不应该存储或发送到云端。毕竟用户的隐私还是很重要的。

参考：

Being Digital — Nicholas Negroponte

Designing voice user interfaces — Cathy Pearl

Design for Voice Interfaces — Laura Klein

Understanding speech recognition to design better Voice interfaces—kore

文章来源：http://www.pursuer.cn/index

原创文章 UI 语音交互交互 hmi设计汽车

声明：站酷（ZCOOL）内网友所发表的所有内容及言论仅代表其本人，并不反映任何站酷（ZCOOL）之意见及观点。

评论你的想法~

表情

喜欢TA的作品吗？喜欢就快来夸夸TA吧！

登录注册