不仅仅是服务视障人士,AI,赋能有声内容生产

日期:2020-12-20 12:15:55 来源:互联网 编辑:小狐 阅读人数:53

分钟

“这真的是机器人读的吗?”这是很多人听到由微软智能语音合成平台制作的有声小说《红楼梦》时的第一反应。因为在有声书中,林黛玉的声音略带微愠,贾宝玉言语委屈,而旁白则字正腔圆,这些声音不仅非常逼真堪比真人,而且还通过多种音色和多种语言风格,表现出不同的角色和不同的语境。

有声读物并不是新鲜事物,很早就有各种读屏软件可以实现从文字到声音的转换,但最大问题就是从断句到语气,一听便知是“电脑音”非常生硬,体验并不好。而随着人工智能技术的进步,科学家和工程师们正在努力让 AI 的声音充满感情和表现力。尤其是对于视障人士来说,声音是他们感受世界的最重要方式,有温度的声音对于他们不仅是感知世界,更是陪伴。

‍近日,在“2020国际人日”之际,微软与周迅 AI 语音红丹丹公益项目发起人—鹿音苑文化传播公司以及来自微软及各界的150余名志愿者,将共同创作的首批人工智能有声内容,包括鲁迅、老舍、萧红、朱自清等作家的一系列经典作品、红丹丹文化期刊,正式捐赠给北京市红丹丹视障文化服务中心的“心目图书馆”。‍

据悉,这些作品都是基于微软 Azure 云认知服务语音合成平台 Speech Studio 及其丰富的 AI(人工智能)语音创作的,其中包括著名艺人周迅授权的定制声音、红丹丹视障人士播音员董丽娜授权的定制声音,以及多个微软智能语音合成平台声音(如晓晓、云野等)

“微软晓晓”到“AI 周迅”让声音有温度

早在十几年前,微软就开始与中国最大的视力障碍人群公益组织—北京市红丹丹视障文化服务中心进行合作,为其技术和产品支持,共同探索用技术服务视障人群。尤其是在2014年,微软 AI 语音团队和红丹丹一起,为视障人士在微软 Azure 上搭建了云端有声读书馆—“心目图书馆”

“声音是视障人士获取知识、陶冶情操、丰富精神世界的重要方式。微软人工智能语音技术声音动听、语音自然,帮助我们降低了有声内容创作成本,心目图书馆的馆藏越来越丰富。应用微软文字转语音技术后,红丹丹能够合成一本有声书的效率大大提高,而且能够7*24小时不间断生成。”红丹丹创始人郑晓洁表示。

随着微软 AI 语音技术不断迭代,2019年,微软利用微软神经网络语音合成技术打造了自然的人工智能声音如“晓晓”而此次,微软又与一直热心公益事业的著名演员周迅合作,通过定制她的 AI 声音,更加高效率地服务于视障人群。

逼真一分需百倍付出

声音背后的微软“黑科技”

技术的进步不应该加深“数字鸿沟”反而应该成为帮助弱势群体和特定人群的强大助力。人工智能技术的创新对于社会和产业发展都带来深远积极的影响,未来也将逐渐融入人们的日常生活,让每个人都能享受到技术带来的便利。

早在2017年,微软就宣布5年内为“AI for Good”项目投资1.25亿美元,通过人工智能技术解决当今社会最重大的,其中就包括了人工智能无障碍计划(AI for Accessibility)2018年,微软宣布在五年内投入2500万美元到该计划当中,用于研发能够增强人类能力的人工智能技术,让全球残障人士更好地走进职场、融入现代生活、增进人际交往。

以微软的智能语音技术为例,经过持续不断迭代升级,目前基于 Azure 的深度神经网络语音模型几乎能够达到真人录音水平,并能够多角色、多情感、多风格,适用于丰富场景的平台原生或定制声音。

微软全球资深副、微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士表示:数字经济是21世纪发展主题之一。未来十年,全球经济增长将得益于数字技术的普及和在每一个行业的深入应用。我们要在科技进步的同时,确保人人不掉队,让每个人都能够参与到经济和社会的发展当中,并从中受益。

“微软的使命是予力世界每个人和每个组织成就不凡。我们通过持续创新打造更具包容性的技术和工具,不断降低技术门槛,让技术创新成果普惠大众,推动技术无障碍建设,帮助世界各地的公益组织通过创新技术实现公益事业的跨越发展。微软世界各地的员工都参与其中。”洪小文说。

而在这背后是来自微软的科学家和工程师付出的巨大努力。想要逼真一分,背后需要百倍付出。微软云计算与人工智能事业部首席产品总监丁秉公“揭秘”了,为什么人工智能合成的声音可以做到如此逼真?是怎样的黑科技在背后作为支撑?

万物有声:不止公益,AI 赋能有声内容生产

中信出版集团社会部主任孔彦表示,很多出版机构现在不止有读者,也有听众,都会推出有声书平台,不仅仅是服务视障人士,大众也非常喜欢。而 AI 技术可能帮助出版机构实现,文字向声音的更快捷,成本也大幅降低。

也表示,AI 技术不仅能够帮助湛卢在有声内容制作上提升效率、降低成本,也可以帮助打造属于自己的声音品牌,为整体品牌赋能。

体验有声内容创作工具平台

本文相关词条概念解析:

语音

语音即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统,语言的声音和语言的意义是紧密联系着的,因此,语言虽是一种声音,但又与一般的声音有着本质的区别。语音的物理基础主要有音高、音强、音长、音色,是构成语音四要素。

网友评论
相关文章
AI功能升级,这意味着没有描述的照片减少了

AI功能升级,这意味着没有描述的照片减少了

AI功能升级,这意味着没有描述的照片减少了[详情]

基于AI cloud 为政府和行业用户AI赋能

基于AI cloud 为政府和行业用户AI赋能

基于AI cloud 为政府和行业用户AI赋能[详情]

AI赋能 科大讯飞用语音解锁传统电视“封印”推动行业发展

AI赋能 科大讯飞用语音解锁传统电视“封印”推动行业发展

AI赋能 科大讯飞用语音解锁传统电视“封印”推动行业发展[详情]

网站地图    Copyright     2016-2018  资讯网   All rights reserved.