眼下,行业巨头都在打造出自己的智能语音生态系统,国外有IBM、微软公司、Google等,国内则有百度、阿里、科大讯飞、搜狗和云知声。但这一次,四大AI独角兽之一的依图科技也月获得入场券了。12月11日消息,依图科技今日发布了其在中文语音辨识技术上的近期突破,声称在全球仅次于的中文开源数据库AISHELL-2中,依图短语音问答的字错率(CER)仅有为3.71%,比起原业内领先者提高大约20%,大幅度创下现有纪录。
此外,依图科技现场宣告了与微软公司Azure和华为的两大全新合作。为何此时入局?对于依图来说,从计算机视觉转入到语音辨识,是一次极大的冲刺,因为目前行业巨头林立,入局者比依图早获得市场份额。但是依图首席创意官吕昊博士显然,现在的语音辨识技术发展还是过于的,相比于人脸识别的准确率而言,语音辨识发展目前都较为较慢,无论是学术界还是工业界,对于语音市场都很寄予厚望,这意味著未来充分发挥空间十分极大。
也了解到,语音辨识技术只不过几十年前就在发展,从50年代的贝尔研究所到八九十年代美国和日本在该技术上的突破,从软件到硬件都在获得进展;我国语音辨识研究起始自1958年,后来的“863计划”中语音辨识沦为最重要课题,中国的语音辨识技术开始转入了确实研究阶段。但由于语音的场景简单,技术突破仍然正处于较慢的状态,目前应用于较好的也只是特定的几个场景。
目前业内一些机构已宣传辨识技术超过了人类水平,但大多数情况下都来自安静、近场等有限环境下的结果。而简单的场景诸如电话、语音节目、远场、混响、噪声、口音、语音节目等,则必须针对性地研发有所不同模型。
“但技术无法束缚我们的想象力。”吕昊离任依图首席创意官将近一年时间,去年年底,他辞任了在Google的工作,离开了生活十年的美国,回国重新加入依图。他实在,在语音辨识领域,依图科技是一名新生,但立志扮演着建构行业拐点的角色。
“依图入局语音市场的初心就是源自好奇心,想要用算法技术推展实际问题的解决问题。我们在AI领域做到了那么多年,早已能了解解读和推展人工智能的应用于了。”可见,作为AI解读世界最重要的组成部分,作为人人交互、嵌入式最重要的入口,语音辨识正在剪切依图的AI版图。尽管这次官方众说纷纭是“首次转入语音行业”,但实质上,依图仍然都有醉心这个领域,语音和语义的涉及技术之前在其医疗的涉及产品中有过展出,只是没发布。
吕昊坦言,科大讯飞做到语音技术,的确是业内领先的,但是科大讯飞的语音有多好、和其他语音的距离有多近这些方面,只不过很难界定——因为不过于半透明。准确率上,行业水平都是98%-99%,在什么情况下测量的,大家也无法评判。
实质上,入局语音市场,还有个因素,吕昊也悉数告诉他了(公众号:)。“工业界目前做到语音辨识的水平早已相比之下多达学术界,在一些公开发表数据集上具有1-3倍的性能提高。而工业界目前做到语音技术的就那么几家,靠学术界去往前前进商业模式,或许没附加的路径,因为数据成本十分之低。
索性自己来做到。”合力巨头:有了华为和微软公司,语音市场的入场券拿的更慢这一次,自由选择新的赛道,依图并非想要做到“孤胆英雄”。因为华为、微软公司都自由选择和依图车站在了一起。发布会现场,依图宣告牵头微软公司Azure发售依图语音开放平台,不会向第三方对外开放,先前两家公司将在智能语音领域双方有新的动作。
此外,依图还牵头华为公布“智能语音牵头解决方案”,该方案基于依图语音开放平台及华为全栈全场景昇腾(Ascend)系列芯片和面向数据中心外侧的Atlas 300 AI加速卡,也向第三方对外开放。“我们始终认为,核心技术的突破,仍然是当前破局中文语音辨识发展的关键。”吕昊回应。当下,AI产业链由基础层、技术层与应用层包含。
某种程度,智能语音辨识亦由这三层构成。基于大量数据的累积、深度神经网络模型的发展及算法的递归优化,近年,语音辨识准确率获得了大大的提高,外界也在各个巨头的测试结果中仔细观察到了“相媲美人类”、“与人相近”等字眼。但语音辨识领域仍然不存在两条红线:3%和15%。一般指出,字错率在高于3%时会影响文字可读性,而多达15%则没什么可读性,体验好感大大降低。
在有所不同场景下,有所不同算法的展现出可能会有相当大差异。特别是在是中文语音辨识技术领域,汉语的博大精深带给的同音不表示同意等问题,更对语音辨识的处置可玩性带给很大挑战,明显影响最后的用于体验。
会上,依图发售的中文语音辨识算法,与业内原先领先者比起准确率大幅度提高。近期公开发表的AISHELL-2的三个测试子集,以及来自第三方的近场口音测试集、将近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集中于,依图字错率完全全部在15%以下(并未过红线)。
录:AISHELL-2是AISHELL Foundation和希尔贝壳宣告的开源数据库,数据规模约1000小时,是目前全球仅次于的中文开源数据库。它由1991名来自中国有所不同口音区域的发言人参予录音,经过专业语音编辑人员拉丁化标示,通过了严苛质量检验,数据库文本正确率在96%以上。值得一提的是,在AISHELL2-2018A-EVAL数据集中于,依图的辨识准确率高达96.29%,字错率(CER)仅有为3.71%。
入局超强百亿美元市场了,依图实在自己“还年长”智能语音技术是人工智能应用于最成熟期的技术之一,并享有交互的自然性,因而,其具备极大的市场空间。中国语音产业联盟《2015中国智能语音产业发展白皮书》数据表明,2017年全球智能语音产业规模将首次多达百亿美元,超过105亿美元。中国2017年智能语音产业规模也将首次突破百亿元,五年填充增长率多达60%。此前,科大讯飞公布2018年Q3报告,前三季度构建营收52.83亿元,同比快速增长56%,主要由于持续增大AI涉及领域的研发投放、生态体系建构的投放以及在教育、政法、医疗、智慧城市等重点赛道的市场布局投放。
科大讯飞高级副总裁、研究院院长胡国平在公开场合回应,科大讯飞在语音辨识错误率方面每年比较上升30%以上。吕昊直言,从数据量、入局时间等角度来看,依图和BAT、科大讯飞等差距很多量级,但是作为新秀,正是看见市场变动慢才实在有机会,也是以这种发布会的形式让外界理解语音市场的现实现状。对于语音开放平台公布之后的场景落地,吕昊回应,眼下依图并没尤其针对某个场景去发力,而是再行发售普适性的语音开放平台,南北通用化,便利外界调动API,在有所不同场景都能构建工作算法的改动和数据的收集。
值得一提的是,依图在现场公布了“问答大会”微信小程序,让用户可以在不多达60秒时间内直观感受到语音辨识技术的现实展现出,在业界也科首次,公开发表半透明的体验各类算法的水平差异。语音辨识技术近年进展语音市场转入新的玩家,出现异常火热,作为重度注目AI领域的,也曾辨别了近年来语音辨识技术发展基本轨迹:2017 年 3 月,IBM 融合了 LSTM 模型和具有 3 个强劲声学模型的 WaveNet 语言模型。
其中集中于拓展深度自学应用于技术再一获得了 5.5% 错词亲率的突破。2017 年 8 月,微软公司通过改良微软公司语音识别系统中基于神经网络的听力和语言模型,在2016年基础上减少了约 12% 的出错率,错词率为 5.1%。2017 年 12 月,谷歌公布全新末端到末端语音识别系统(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),错词亲率减少至 5.6%。
2018 年 6 月,阿里巴巴达摩院发售了新一代语音辨识模型 DFSMN,将全球语音辨识准确率纪录提升至 96.04%,错词亲率减少至 3.96%。2018 年 10 月,云从科技公布全新 Pyramidal-FSMN 语音辨识模型,将错词亲率(Worderrorrate,WER)减少至 2.97%,较之前提高了 25%。当然,今天,我们必须记上一笔2018年12月11日依图的这次语音开放平台发布会。
车站在AI的路口,依图科技又更进一步了。原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:开云|kaiyun-www.xxsjfhzs.com
020-88888888