计算机与人类对话时,什么样的声音听起来最合适?

这是2009年六个IBM语言学家,工程师和营销人员面临的问题。当时他们想为公司的人工智能程序Watson将文本转换为语音。18个月后,一种精心制作的语音诞生,它听起来没那么人性化,也不像电影《2001太空漫游》中的HAL 9000那么冰冷。

为计算机赋予“个性”是很多软件设计师在做的事,随着移动设备的普及,人类的手和眼已经忙不过来,急需语音交互。

除了计算机和手机,还有很多机器也在学习聆听,理解和说话。汽车与玩具也加入了语音功能,甚至一些新式“家电”也如此,比如家庭陪伴机器人Pepper和Jibo,以及亚马逊的语音设备Echo。在开发可理解自然语言并回应人类语音命令的软件(通常被称为“会话代理”)过程中,还诞生了新的设计科学——人机互动设计,但其艺术性往往要强于科学性。

不过,即使是用于天气预报和交通导航的简单语句,也很难让计算机声音能与人类的一模一样。多数软件设计师承认,语音设计还没达到“恐怖谷”的程度。而除了正确的发音,更大的挑战是赋予计算机语调和情绪,即韵律。要让人工智能完全展现人类说话中的丰富情绪,这在现在还是不可能的事。

合成语音的生成方式有好几种。效果最好的技术会使用人类语音,从中生成不同说话方式的数据库。每个数据库都需要人类配音者录制数十至上百小时。为计算机语音加入情绪的重要性和困难,在电影《她》中体现的最为淋漓尽致。剧中男主角爱上了人工智能Samantha,而他们就是通过语音交流的。

现代语音合成技术的奠基人是苏格兰计算机科学家Alan Black,他现在是卡内基梅隆大学语言技术研究所的教授。他认为在巨大进步的背后,语音合成系统还不能像人类那样完美,它们不能“带着感情说话”。

对一些玩具产品公司来说,语音系统的不完善不算重要,因为其产品就是用于娱乐和取悦用户的。但对那些用于与人类合作,会成为工作伙伴的系统来说,这一困难还是无法超越。

IBM最近公布了一段电视广告,其中有作曲家鲍勃·迪伦和Watson的出镜。广告中当Watson开始唱歌时,鲍勃·迪伦骤然退场,因为人工智能程序的声音实在太难听了。不过IBM的目标就是让系统成为不那么人类的专家,他们想要的声音不需要太像人类,也不能太恐怖。

不过IBM研究院的研究员Andy Aaron表示,即使是正确读出一个单词,“出错率依然是我们最大的挑战”。团队中的一些成员花了一年多时间创建了一个庞大的正确发音数据库,以让错误尽可能接近零。

IBM还聘用了25名配音员,寻找特别的人类声音,并以此为基础为Watson开发语音。在选出最想要的声音后,IBM用多种方式进行了调整,甚至会提升频率,让声音听起来像小孩。不过这种个性的声音遭到了一致反对。

他们想要的声音要缓慢,平稳而且“令人愉悦”,整个过程让工程师的工作看起来更像艺术家。最终他们生成的语音虽然一听就知道是计算机,但透露出了乐观,还有一点活泼。

随着语音技术的进步,它的应用范围也会越来越广。以色列公司Imperson之前都在开发娱乐型的对话角色,现在却在考虑往政治方向发展,比如在社交平台上让虚拟的竞选者与民众互动,即使知道是假的,单独与政治人物对话也会产生亲切感吧。

余下全文(1/3)

本文最初发表在雷锋网,文章内容属作者个人观点,不代表本站立场。

分享这篇文章:

请关注我们:

发表评论

电子邮件地址不会被公开。 必填项已用*标注