乐智网

一篇文章告诉你AI语音助手想要追完美有多么困难

2018-04-11 08:58 来源:科技知了

几乎每个拥有智能设备的人都拥有一个虚拟私人助手,不管你使用与否,人工智能确确实实的在不断的进步完善发展。《星际迷航》中来自未来的AI助手被不少影迷向往,听听它的声音,礼貌富有教养,飘渺无实质,却在人类需要的时候,渴望又积极的竭尽全力付出自己的力量。

早期,表现形式是虚拟接待员引导客户行为,像“更多选项”请按“0”;或者软件将字体转换成音频。直到2011年,苹果公司发布了Siri,第一个商业上的,能够与人动态互动的私人助理。也是从iPhone 4S发布以后,苹果的客户基础也开始变得庞大;据统计,目前全球范围内正在使用的iPhone的数量超过7亿部。

乐智网、智能语音、人工智能

亚马逊的Alexa和微软的Cortana在2014年首次亮相,2016年谷歌助手开始跟进。IT研究机构的Gattner预测,未来的几年,移动设备上会有更多的触控任务会发展成为语音激活。语音助手Siri、Alexa和其他的虚拟助手也开始全球化。目前Siri按照男性、女性分类,能够掌握21种语言。Cortana能讲八种语言,谷歌助手和Alexa分别更掌握四种和两种语言。

最近,声音,这种发出单词、句子和完整思想的能力,人类的天赋技能,开始被频繁提起。应用到助手上更是一个复杂的任务,考虑到每个人都是声音的专家(毕竟每个人对声音的反应都是天生且自然的,孩子们从母亲的肚子里就开始接触声音),人们对虚拟助手的要求也愈来愈严格。

什么样的声音才是悦耳的?富有信赖感?这个标准不好判定。人类文化在影响机器设备的声音,影响是相互的,机器又该怎么影响服务的人类呢?现阶段,我们正处在人类文化与复制品的相互影响的初级阶段,这个阶段,开发人员面临的问题非常之多。越发清晰明显的就是,一个设备正在按照人性化方向发展;人性化的发展,意味着用户需要放弃一部分人类独有的特质,这个放弃会给用户带来些什么,或者失去些什么,暂时是无法言述的。

Terri Danz是一名声乐教师,被《Backstage》排名到美国前八。她的学生或者客户群体很多,歌手、新闻主播、喜剧演员,希望提高自己的专业技能。像喜剧演员Greg Fitzsimmons和演员Taylor Handley都是她的学生。Danz对AR发表过自己的看法,她认为,AR的声音最缺乏的是共鸣,一种和温暖的声音有关的品质。

Danz听过三个不同时代的Siri语音样本——iOS 9、iOS 10和iOS 11,她将这三个版本的受众对象联系了起来。

Danz表示:“iOS 9以后,Siri的声音变得更高也更轻。通过提高音高,iOS 11版本的Siri就显得更有活力乐观,这种声音更加年轻一些。”

为什么提高音高呢?Danz继续谈到:“为了营造一种更加温暖、更加友好的感觉,可以吸引更多年代的用户,特别是千禧一代。科技发展的情况下,快速适应市场变得越来越容易。在声乐领域就不一样了,几年前我们肯定的作品,到现在可能已经不会被接受、使用或者改进。“

关于Danz的谈论,其实是有研究支持的。《连线语音》(Wired for Speech)中《声音是怎样刺激和推进人类和计算机的关系》的作者克利福德·纳斯(Clifford Nass)和斯科特·布雷夫(Scott Brave)在作品中有探讨科技、性别以及权威性之间的关系。纳斯作为斯坦福大学的传播学教授,布雷夫是斯坦福大学的的博士后学者,在2005年的《连线语音》上发布了研究10年的成果,语音界面的心理和设计元素,以及语音互动界面的用户偏好。

他们的研究结果显示,男性更喜欢男性机器声音而不是女性,相对应的,女性也更喜欢女性机器声音。

但是忽视这些,他们发现,即时传达的信息都是相同的,无论男女都对电脑的男性语音的指示更具有顺从感。作者认为这和社会行为有关系。

其他方面,该研究还有另一个发现,虽然计算机没有性别,性别表现也仅仅是设定表现,但女性发声的电脑更多的被认为是爱情、人际关系方面的,男性更偏向技术科学方面。根据该书的报道,一家销售公司可以根据任务分配男性女性的声音分工。

“男性声音是销售方面的合理选择,女性声音更偏向解决抱怨等问题,因为女性的声音被认为感情更加丰富,容易联想到以人为本、善解人意和友善易合作。

然而,一旦处理中心有严格的“不退款、不退货”这样的规定,选择男性的声音来解决比女性的声音更加合理,因为女性声音可能会受到更加严苛的回复评价。”

Rebecca Kleinberger,麻省理工学院媒体实验室的研究助理和博士研究生,她为纳斯和布雷夫的研究丰富了研究背景。它主要的学术研究兴趣方向是,声音和人们可以倾听自己的声音来了解自己。

Kleinberger表示,和钢琴音符不同,观看声谱图,围绕单一的频率,人类的声音更加复杂。人类的声音对应钢琴来讲,是演奏的弦,而不是音符。很理所当然的,有和谐的声音也有不和谐的声音。比较有趣的事,较低的频率下,共振峰之间的关系比较高的频率更和谐。由于骨传导,我们每个人听到的自己声音的较低部分其实比较高比分更好或者更大。这也是为什么我们大多数的人都不喜欢听到自己的声音,也是我们通常更喜欢低沉的声音的原因。

这也就可以解释为什么Siri在2013年,根据通信调查公司的数据,音高要比普通女性低21%左右。体现了“男性化”的特质,还让人觉得悦耳动听。

从这些研究报告中,我们能够学到些什么?用户需要技术来帮助自己,而不是指挥自己。一家刚刚起步的科技公司需要在激烈的市场竞争中站稳脚跟,可能会更倾向于迎合市场文化。所以它会选择创造一种低沉的女性声音,不是选择挑战根深蒂固的偏见。维护现状对自己更加有利,所以不会试图去改变。

Engadget有联系几家科技公司,询问他们是如何确实要使用的声音。亚马逊是唯一一家给予回应的公司,“为了选择Alexa的声音,我们测试了几个声音,从中筛选用户喜爱的。”在《连线语音》的一篇文章中,作家大卫·皮尔斯(David Pierce)采访了负责Siri技术开发的苹果高管亚历克斯·阿卡罗(Alex Acero),为了找到Siri适合的声音,该公司的设计团队和用户界面团队筛选了数百个不同的声音。

皮尔斯在文章里有写道:“这一部分比科学更能体现艺术,他们倾听声音,从中抓取那些难以捉摸的友爱、助人为乐的感觉,这很困难,需要敏锐的洞察力。”

对偏见和主观性的有力驳斥就是,技术不能决定文化,只是文化的反映。在接受澳大利亚广播公司(Australian Broadcasting Corporation)的采访时,来自美国阿拉巴马大学(University of Alabama)的女权主义研究人员、数字媒体学者米丽安·斯威尼(Miriam Sweeney)讨论了数字助理如何经常受到言语攻击和性诱惑。VPA会选择一种温和甚至是含有歉意的语气来回应这种情况。当VPA中有女性的声音的时候,这种声回答的设定却会被认为是回应或者用其他的一些含糊回答,也会被认为是恶意举动的接受性回答。

这就是人类和科学技术的区别,没有一个真正的人类会接受这样的对待。如果开发人员的目标是创建一个联系性、数字化的替代品,可以考虑为自己的作品灌输一种基本的尊严和尊重数据。

任何一个有过演讲经历的人都知道,声音需要根据环境变化。

比如,在礼堂里,汗水会难以发散而聚集,肩膀、脖子和喉咙的肌肉会收紧,因此身体产生的压力会聚集在喉咙的绳带上,因为承受巨大的张力,会以更快的速度震动。这就是为什么很多人在人群中说话都很紧张。再加上不规则、加快速的呼吸,声音会颤抖或者破音,即便是最熟练的演说家优势也难免神经的压力。

在Kleinberger的研究中,她会观察对象的音感、节奏、口音尤其是音调。Kleinberger指出,当女性在展示专业能力的时候,会使用比和朋友讲话交谈时更低的声音。

这样的变化时人类经历中根生蒂固的,声音的发出是一个复制的过程。例如,最初学习“ma ma”这样的声音,是从模仿嘴形开始,模仿对象来自父母长辈和同辈的正面强化,在小时候就在不断的塑造自己的发声技巧。

VPA的一大特质就是,复制了人类的互动行为——利用事先设定好的笑话来回应用户,以及其他随意的评论和口头的肯定设定。和人类不同的是,它们的声音是不会发生变化的。

《连线语音》的合著者斯科特·布雷夫(Scott Brave),现在的FullContact的CEO,表示自己在和纳斯进行试验时,还没有足够的洞察力。

“我在很多年前,参与过一项关于汽车驾驶人的情绪调查研究,作为一个副驾驶,要保持的正确情绪是什么。结果显示,匹配用户的情绪要比清楚情绪是什么更重要。简单来说,就是共鸣问题,会拥有一种被回应的满足感。“

“如果一个人的情绪不平静,那么怎么让声音来改变呢?让别人改变自己的状态的最好办法就是,先和自己情绪的状态匹配上,然后再引导情绪逐渐的平稳。“

也许一直寻找一个完美的声音就是一个错误的行为,未来的声音不会发展成为一个单一唯一的理想声音,以此来吸引更多的受众群体。单一的理想声音只是通往未来真正目标道路的一个权宜之计。正确的方法该是,创造一个更加像我们的声音,一个能够改变周围人反应的声音。

“最理想的就是,设备能够对自己所讲的内容有所理解。因为用户需要的内容,其实是从对话的过程中得来的,单单从几个词语是无法得到实质性内容的。这就需要设备拥有一套逻辑。”布雷夫这样表示。

“语言学是这样解释的,一个人所说的特定的词,有些事情感上的表达,有些是情景下的选择。语境有很多种,但是目前的设备所掌握的还是非常的少。“

Kleinberger赞同这种观点。“设备和用户交流的时候,声音或许是不可思议的,但是还是拥有机械型以及不确定性。技术产品拥有声音的特性,但是缺乏韵律、声音还有的姿态和真实性、多样性以及响应性。人类就不同了,人类的声音韵律总是在变化,对环境的感知也很敏感。”

今天,科技技术可以分辨出声音的微妙之处,声音的变化程度。比如,激素水平对声音质地的影响等。

“我们的声音其实揭示了许多关于我们身体健康状况和精神状态方面的信息” Kleinberger这样表示,“句子节奏的变化,可以被用作情绪抑郁方面的判断信息,声音中呼吸音可以用作心脏和肺部疾病方面的指标,关于气流波动的非线性圣学信息,甚至可以来预测帕金森病的早期阶段。”

“智能家居一直在倾听用户的声音,不久,它们就能检测到这些心理和生理方面的状态。或许有一天,它们还能检测用户的心理生理变化,甚至有一天或许会比孕妈更早的知道家里面会有一个宝贝到来。”Kleinberger继续说。

总有一天,人工智能可以突破现在的形态,提取数据,接收伙伴和家庭成员之间的动态谈话。人工智能还将会使用收集的声学信息来检测人们的社会动态。但是现在它们所不能做的,就是根据明确的信息来采取行动,它不会根据一个人的未陈述偏好改变自己的措辞,不会根据请求帮助的类型来调整音调,但是Kleinberger认为,这样的目标待实现时间可能只有5年,

未来的一天,这些虚拟的私人助手可以倾听用户的声音,发现用户的压力,发现人际关方面的变化来调整自己的声音、措辞以及节奏。这样的发展情况下,“理想”的声音会因人而异,就像人的声音一样,每天都在实时的调整自己。

如果这项计划成功的话,将拥有巨大的社会潜力。试图想象一下吧,未来你的设备上的智能语音助手,将会像你的伙伴一样和你对话,针对用户的声音,提高或降低声音,做出反应,而不是单单的像读稿子一样平淡无趣。

“Siri模仿用户的声音就绝对的讨喜吗?是的。我们人类无时无刻都在做着这样一件事情,不断的调整自己的声音音色,创造一种良好的谈话氛围。”

在开发的过程中,声音这方面其实有一个神秘的道德灰色地带。许多开发人员的目标是创建一种无违和的感知体系,如果用户感觉自己被监视或者判断这个设备超出了自己的忍受范围,这款技术设备就会很容被解读为拥有潜在危险或者是被操控的。

“从语音对话中收集数据可以得到许多好处,但是我相信,在Siri和用户之间创造一种“真正有情感的对话”并不是唯一的好处,“Kleinberger说。“只要过程和数据都是透明的,有用户自己控制的话,操控泄露方面的担心就是多余的。“

隐私问题上,苹果比谷歌或者Facebook等竞争对手更加谨慎,这是公认的。苹果没有从服务器上提取数据来为自己来定制Siri,而是在强调其机器学习和人工智能的侵入性很低。

但是苹果的竞争对手也在力图做到这一点,而且最近Siri的整体能力和功能的多样性已经落后于其他的VPS。很明显的就是,用户提交的个人信息愈多,VPA从中学习到的信息就越多,服务水平就越高。

毕竟,人和人之间的关系还是需要公开和透明的,人和机器也是这样。也许人类创造了这种和设备对话的能力,无论是通过声音还是其他途径,技术方面的开放和透明是很必要的。这种信任关系也是双向的,公司需要更加光明磊落的,公示自己从消费者那里收集的收集类型以及使用方式。

那么,像这样的双方妥协,如果是你的话,你愿意牺牲多少?

版权与免费声明
①本网凡注明来源“乐智网”的所有作品,版权均属于乐智网。转载方务必在文中注明来源,并附带链接 http://www.lezhiot.com/。若转载方没有严格执行上述约定,乐智网将视为侵权,并追究相关法律责任。 ②本网转载其他网站作品的过程中会注明来源,目的在于为读者传递更多信息,并不代表乐智网赞同其观点或证实相关内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并主动承担版权等法律责任。
乐智网二维码

扫一扫关注我们