1.0.47

从语音识别原理到更好的语音界面设计

Pursuer设计机构
北京/设计爱好者/5年前/1498浏览
从语音识别原理到更好的语音界面设计
Pursuer设计

在设计良好的语音用户界面时,了解该技术的工作原理总是有好处的。


语音用户界面(VUI)的一个关键组成部分是自动语音识别(ASR)系统,它可以将用户的语音转换为文本。VUI是任何语音应用程序/设备的接口。从Siri 、Amazon echo Alexa、google home 、小冰到国内的叮咚、天猫精力、小爱同学、你好问问等等。


有许多提供ASR系统的免费和付费服务。那么在选择系统时,请务必牢记以下两点:


1》数据的稳健性和准确性根据


经验,公司数据越多,语音识别效果就越好。


2》良好的端点检测


 端点检测是指ASR系统如何知道用户何时开始或结束讲话。尝试寻找提供最佳端点检测的服务。



同样,并非所有的ASR工具都具有高级特性,如N-best列表,从最便宜的ASR工具开始可能会更快,但是如果识别准确度不符合标准,或者端点检测效果不佳,那么您的用户最终会放弃使用该产品。因此,在下文,我们提出了几点需要注意的事。


1.强行介入


Barge-In是内置于VUI中的功能,允许用户在对话期间随时中断系统。决定启用它将很大程度上取决于您计划的VUI的类型。如果你的VUI要说一长串的介绍。那么,在这种情况下,用户可能想中断并中途停止这种操作。


在决定策略时,您需要记住是否要启用用户所说的任何内容,或仅使用唤醒词。使用唤醒词是最常见的VUI策略。当Alexa播放歌曲时,用户可以随时停止播放。如果没有使用语音命令将无法停止播放。


2.超时设定


VUI需要知道用户何时开始讲话以及何时讲话结束。知道用户何时停止讲话被称为超时设定。提供最佳超时对于获得良好的VUI体验至关重要。


ASR引擎可以决定超时的条件,比如说:


1》语音结束超时


 知道用户什么时候说完,即完成了对话,是优秀VUI系统最重要的特征之一。这有时被称为终点检测。一旦用户停止说话就给予回应是不自然的。在继续对话之前,系统需要暂停一段时间。这是一个基本的对话礼仪。某些ASR引擎允许您配置此暂停,也称为语音结束超时。使用1.5秒结束语音超时是一个很好的经验法则。但是,有些情况下您需要更长的结束语音超时时间,例如说长字符串或数字时。对于用户只需要提供一个单词响(如“是”或“否”)的情况,较短的超时工作属于正常情况。


2》无语音超时(NSP)


 如名称所示,此超时用于检测是否检测不到语音。它与语音结束超时不同,在这种情况下,用户语音有一个具体的开始和结束。这个超时通常在10秒内或者更长的时间。这些超时的处理方式有多种,向用户显示一系列可以完成事情的方法或行为。


3》言语太多


 这是一种罕见的情况,当用户说话太久而没有任何停顿时。在大多数情况下,您不需要处理太多语音(TMS)超时。然而,如果你想加入这项功能,那么一个好的经验法则是系统超时7-10秒。


合并超时对于了解用户说话的时间节点至关重要。



N个最佳列表


当用户与VUI交谈时,语音识别系统会对所述内容返回多个回应。它为每个结果分配一个置信度值,并通常选取具有最高置信度值。简而言之,置信度值是指示系统对特定结果有多少信心的百分比。


识别引擎通常不会只返回一个结果。它返回一个N-best列表,该列表是它认为用户可能按照可能性顺序说的内容。它通常是前5-10名的结果。


如果您已设计系统以在狭窄的域中进行回答,那么N最佳列表很有用。例如,在提供有关动物的信息的VUI中,当您说“给我看一个獾”时,ASR工具可能会将其解释如下:


给我看她的徽章:92%的推荐

告诉我一个獾:89%的推荐


既然你已经知道这个VUI是关于动物信息的,它可以搜索动物名称的提示并选择第二个结果,即使它没有最高的置信水平。


如果第一个答案无效,则N-best列表的另一个用途是纠正信息。



自动语音识别工具(ASRT)面临的挑战


许多研究表明,自动语音识别工具具有超过90%的准确度,但是这是在理想条件下。一个ASR工具的理想条件是一个安静的房间里一个成年人有一个好的语音交互过程。但是,大多数现实生活条件并不理想。


1》噪声

处理噪音是当前ASR发动机最困难的挑战之一。噪声是指任何嘈杂的环境,背景中的电视,多人同时讲话或当用户在VUI正在收听时与另一个人讲话时的侧面讲话。一些VUI可以检测噪声并要求用户移动到噪音较小的环境。


2》孩子

ASR工具要准确识别儿童的声音还是比较困难的。由于声带较短,儿童的声音更高。迄今为止,识别这种类型的语音的数据较少。儿童往往口吃和重复的话,这是ASR工具的另一个挑战。很像早先的问题,事情正在改善。


3》名称,拼写和字母数字


ASR工具更容易识别更长的短语,例如“是的,我会”,而不是像“是”这样的较短的答复。名称,拼写和字母数字字符串也很难识别,并且通常为这些输入提供GUI输入是有意义的。'Karan'这个名字经常被误解为'Karen'。要求VUI致电Karan可能会意外地错误地称错了人。所以这项技术也正在改进。


4》用户数据隐私


在设计语音界面时,务必确保不要存储私人数据,除非绝对必要。当你存储这些数据时,确保用户知道并且有拒绝访问的选择。即使设备在不停地收听,用户说出唤醒词之前的任何数据都不应该存储或发送到云端。毕竟用户的隐私还是很重要的。



参考:

Being Digital — Nicholas Negroponte

Designing voice user interfaces — Cathy Pearl

Design for Voice Interfaces — Laura Klein

Understanding speech recognition to design better Voice interfaces—kore



用户调研 |  HMI设计 |  UE/UI设计 |  HMI培训  |  HMI评测  | 体验咨询

文章来源:http://www.pursuer.cn/index

4
举报
4
分享
原创文章 UI 语音交互 交互 hmi设计 汽车
声明:站酷(ZCOOL)内网友所发表的所有内容及言论仅代表其本人,并不反映任何站酷(ZCOOL)之意见及观点。
评论
评论你的想法~
表情
喜欢TA的作品吗?喜欢就快来夸夸TA吧!
登录注册
侵权申诉 企业服务 帮助中心
京网文[2023]1747-060号 京公网安备11010502000501号 京ICP备11017824号-4 京ICP证130164号Copyright © 2006-2024 ZCOOL站酷

深圳SEO优化公司扬州品牌网站设计公司龙岗网站设计北京网站推广工具多少钱吉祥推广网站价格盐田设计网站公司怀化阿里店铺托管鸡西网络广告推广哪家好南澳百度网站优化排名多少钱榆林网络推广多少钱菏泽关键词按天扣费哪家好江门网站seo优化哪家好信阳百度网站优化排名报价醴陵高端网站设计价格梅州网站搜索优化公司来宾网站搜索优化哪家好德宏网络广告推广潜江企业网站制作推荐湛江网站优化价格徐州网站优化软件推荐潜江网络营销多少钱台州网站建设设计推荐爱联网站优化按天收费多少钱曲靖SEO按天收费哪家好海南SEO按效果付费价格乐山设计公司网站多少钱九江企业网站建设推荐河池网站优化按天计费推荐德宏营销型网站建设和田网页制作多少钱果洛营销网站报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化