您的位置:IT爆料网 > 互联网

百度语音识别技术突破 巨头崛起

发布时间:2023-02-06 16:15:48  来源:互联网     背景:

语音识别行业正面临新一轮的洗牌。

早在两年前,大家的普遍认识是语音识别领域将会催生出巨头公司。所以当苹果、Google、百度、三星和微软提出要收购当时全球语音领域的老大Nuance的时候,Nuance CEO Paul Ricci一口回绝。

但随之不久,苹果、Google和微软都选择了摆脱Nuance的依赖,自建团队开发语音业务。在那之后,Nuance的市场份额节节下跌,2014年还高达60%的市场份额,一年时间缩水一半只剩31.1%(Source:Research and Markets)。相比之下,Google语音识别的市场份额增长明显。

在英语领域,我们看到的趋势是作为搜索巨头的Google逐渐占据行业的主导权。那对于中文领域的市场,是否会重现在英语领域语音识别发生的历史呢?当百度重兵布局语音领域,是否会成为中国语音识别领域标准的制定者,占据行业主导权呢?

我们从多个角度分析。

1.语音识别新架构:用做图像的方法做语音

近些年来,我们发现在图像领域有一个明显的发展趋势:越来越深的卷积神经网络层级(CNN),从最初的8层,到19层、22层、乃至152层的网络结构。而随着网络结构的加深,ImageNet竞赛的错误率也从2012年的16.4%逐步下降到3.57%。

110301

ImageNet竞赛中,越来越深的CNN不断刷新着其性能

那么,深度学习在图像领域的进展,是否能够在语音识别上有所突破呢?

通常情况下,语音识别是基于时频分析后的语音谱完成的。如果将卷积神经网络的思想应用在语音识别的声学建模上,我们就可以把时频谱当作一张图像来处理。而由于卷积神经网络的局部连接和权重共享的特点,它具有很好的平移不变性,所以可以将它应用在语音识别中,而且还能克服语音信号本身的多样性(说话人自身、以及说话人间、环境等)。

110302

Deep CNN语音识别的建模过程

但这里遇到一个问题,虽然在ImageNet竞赛中得到广泛关注的Deep CNN结构能够显著提高性能,但由于无法实现实时的计算,其很难在产品模型中得到实际的应用。

一个解决方案是借鉴Residual连接的思想,训练一个数十层的包含Residual连接的 Deep CNN,以用于工业产品中。

百度对此做了对比实验,最终发现Deep CNN架构不仅能够显著提升HMM语音识别系统的性能,而且也能提升CTC语音识别系统的性能。在此同时,百度也尝试了将LSTM或GRU的循环隐层和CNN结合,这是相对较好的选择。

这也推导出了百度发布的新型语音识别架构:Deep CNN + LSTM + CTC。

模型结构采用:Deep CNN + Deep LSTM。

建模方式:基于CTC的端对端建模。

通过创新的架构,百度大幅提升了语音识别产品的性能,相对于工业界现有的CLDNN 结构,错误率相对降低了10%以上。

2.新架构推动语音大规模产业化

从历史来看,产品和系统真正的大规模使用和推广,一般都来自于基础性的变革和突破。

对于语音识别来说,真正能够实现大规模使用的系统,一定要满足:在不同场景、方言下的稳定性,大规模的训练能力,极短的训练时间,大大降低的机器耗费。这好比 Android 一样,稳定、支持海量应用和场景开发、开发时间短、开发成本低。

而Deep CNN和LSTM、CTC结合的架构,在以下几个方面有显著的优势:

1)更强的通用性。使用一个单独的算法完成从任务输入端到输出端的所有过程。

2)大规模训练的能力。能够在约10万小时的精准标注语音数据中完成训练。

3)大大降低服务成本。以CTC为例,它能够让语音识别解码的计算量降下来,光这部分成本就能降低近1倍。

4)适合工业界。据百度Deep Speech中文研发负责人李先刚介绍,百度不仅能达到近十万级的数据规模,而且能够支持高性能计算,这可以让优秀的模型直接移植到产品线中。

5)性能更优秀。以往语音系统将训练过程拆解,人为干预多,但效果不一定好。端对端模型减少了人为干预,直接从输入端到输出端,一般性能会更好。

6)层数越深,效果越好。引入了深层CNN的概念,语音识别的性能得到显著的提升,正如李先刚博士所言:‘The Deeper , The Better’。

李先刚博士特意提到了百度语音的研发侧重点。与学术研究不同,百度语音聚焦于技术的实际应用,技术难度和实现程度更高。针对语音识别产品而言,首先要具备在大规模语音数据库上体现性能提升,其次就是具有适合语音在线识别产品运行的模型。

正是基于以上这些优势,让百度语音识别真正成为大规模产业化的基础,带来真正的人机交互变革。

3.语音识别以量取胜的同时,也以质取胜

语音识别技术经历了长达60年的发展。2006年Hinton提出了深度置信网络,掀起了深度学习的热潮。2009年,Hinton以及他的学生D. Mohamed将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库TIMIT上获得成功。从2010年开始,微软的俞栋、邓力等学者首先尝试将深度学习技术引入到语音识别,随后逐渐成为了主流。

而在以深度学习的发展脉络下,语音识别的准确率和通用性,本质就在于:

数据量的多少,这很大程度来自于搜索量、使用量的规模;

算法的优劣,顶级人才在这方面有极其重要的作用;

计算能力的水平,尤其是在大规模产业化和成本因素下,FPGA等专业硬件的发展水平也非常重要。

而在这三方面的比拼中,巨头公司将会占据极大的优势,因为它们拥有最多的数据,最顶级的人才以及最强大的计算能力水平。所以当Google开放语音识别API 后,在英语语音识别的市场中,Google将比Nuance有更大的优势。

而在中文市场中,百度也将扮演着和Google在英语市场相似的角色。

4.传统专利池受到挑战,竞争回归技术

语音识别的模型算法每年都有很大的变化。就以百度自己的语音识别技术来说,2013 年语音识别技术主要还是基于美尔子带CNN模型,2014年发展出了Sequence Discriminative Training(区分度模型),2015年初发展出基于LSTM –HMM的语音识别,年底发展出基于LSTM-CTC的端对端语音识别系统,而现在把Deep CNN模型和 LSTM、CTC结合了起来。

110303

百度语音识别技术每年迭代算法模型

在快速发展的技术下,很多公司选择了采取组建知识产权产业联盟的方法。2015年 11月,百度开放了上百项智能语音专利,和海尔、京东、中兴通讯、中国普天等 20 多家单位组建了智能语音知识产权产业联盟。

这种开放式创新和开放式知识产权许可的结合,也许会成为智能语音未来的产业核心模式。这也意味着传统语音的专利池,在快速发展、迭代的语音技术下,在更开放的语音联盟下,会失去过去的保护作用。

所以智能语音的未来发展,关键还是在于核心技术的突破,这也就来到了数据、算法和计算能力的比拼,这方面百度会有很大优势。

5.人工智能技术生态的重要作用

当Google发布了语音开放API,其对Nuance的打击是致命的。这不仅仅是因为Google在产品、技术上的优势,而且也来自于Google强大的人工智能技术生态,例如以TensorFlow为代表的深度学习引擎,因为大量的一线工作人员使用,其对语音识别领域的开发选择有强大的影响力。

当语音技术逐渐往大规模产业化发展时,公司的技术生态会非常重要。对于百度来说,9月份开源的PaddlePaddle,1月份开源的Warp-CTC,都对产业界有深远的影响。

基于上面的分析,我们认为语音识别将进入大规模产业化的时代。而在核心技术和能力的比拼下,语音识别也将进入巨头崛起,传统语音公司稍显没落的时代。


本文标题:百度语音识别技术突破 巨头崛起 - 互联网
本文地址:www.itbaoliao.com/hlw/22098.html

返回网站首页

本文评论
三星GALAXY S4 mini新推三种骚气配色
为旗下热门手机推出多款配色来提升人气,向来是三星的拿手好戏。日前,三星便联袂英国手机零售商 Carphone Warehouse为正在热销的三星GALAXY S4 mini推出了粉红、橘色和紫色三种全新的色彩款式,并已经陆续上市发售。...
日期:01-18
美国富豪花式避税记录曝光:巴菲特、马斯克在列 贝佐斯5年税款为零
6月8日周二,美国新闻网站ProPublica发布报告,揭示了最富有的美国人如何大举避税。根据上述网站从美国国税局(IRS)获得的机密税务文件,在2014年-2018年期间,最富有的25位美国人共缴纳136亿美元联邦所得税。尽管这一数字...
日期:10-18
2016苹果发布会视频(中文):5分钟看完所有重要亮点
作为苹果史上最简短的一次发布会,苹果以“小”为主题在今天凌晨发布了4英寸的iPhone SE、9.7英寸的iPad Pro,带来了新的Apple Watch表带以及iOS 9.3系统更新。简单来说,iPhone SE就是iPhone 5S的外壳,iPhone 6S的芯,它搭载A9芯片CPU、GPU性能表现和iPhone 6S一样好,分别是iPhone 5S的2倍、3倍。...
日期:11-17
红袖添香“2012华语言情小说大赛”完美收官
7月17日消息,由国内女性文学网站红袖添香、言情小说吧联合主办的“2012华语言情小说大赛”日前在湖南岳阳完美收官。红袖添香赛区网络作家柳晨风凭借作品《盛夏晚晴天》、言情小说吧赛区网络作家殷寻凭借《大寰妤:许我倾室江...
日期:10-06
王功权私奔伴侣王琴之谜:父母称两人在美游玩
许言若 北京报道随着王功权一翻惊世骇俗的微博“私奔”表白,三天之内,王琴的成为微博本周名人。5月16日23:21,40分钟之后的17日,便是王功权母亲的生日,作为鼎晖创业投资合伙人及创始人之一,也是国内资...
日期:11-15
网易休闲游戏平台《游戏星城》今日首测
新浪科技讯 5月25日凌晨消息,网易宣布旗下休闲游戏平台《游戏星城》(xc.163.com),今日中午12点将首次开启技术封测(限量删档测试)。《游戏星城》是网易面向休闲游戏玩家推出的休闲游戏平台。其上所有游戏都由来自于国内外的各游戏开...
日期:12-02
LOL冰雪节抽奖活动地址 冰雪节抽奖活动奖励一览
冰雪节的活动持续不断,有抽奖,有任务,也有送皮肤,这些在之前都能预计得到的,因为冰雪节是LOL中一个比较重大的节日,因此活动会很多,整个7.24版本更新包都和冰雪节相关。除此之外还有一些长期的永久时装领取活动,这其中你有几款领到了?一起来看看吧!...
日期:10-26
天语手机有裂痕 售后推脱责任“被人为”
【IT商业新闻网讯】(记者 双胜)315临近,产品质量再次成为用户申诉的热点,而手机问题依旧称“老大”。近日,从各大报纸及网络媒体获悉,天语手机质量问题频发,更为严重的是天语手机售后服务态度较差,检测人员对问题手...
日期:11-24
以淘宝“全民疯抢”大促为例  为你科普几个关键词
对于网络宅男腐女来说,网络促销无疑是比商场大促更加催动人心的大事件。可能很多人对网络购物的红火既感到理所应当又觉得扑朔迷离。面对商家玲珑八面的说辞,到底哪些说法是真相,哪些是谎言。这边就拿淘宝“全民疯抢”大促销(qi...
日期:11-08
道友请留步神仙介绍之多宝道人
小编今天给大家带来《道友请留步》多宝道人的详细介绍,让你对多宝道人这个神仙更加了解,请多关注《道友请留步》,小编会带来给你更多的攻略。技能普攻:对前排敌人造成70%伤害技...
日期:12-30
国美电器收购世纪电器网80%股份
网易科技讯 11月22日消息,国美电器今日对外正式宣布,收购家电B2C网站库巴网(原世纪电器网)80%的股份,但并未透露具体的收购金额。国美电器还表示,将推出全新电子商务平台与网络营销策略,这标志着国美电器全面进军电子商务战略的具体实施...
日期:12-24
黄子韬道歉被拒 原因曝光网友微博给予应援
3月22日消息:近日,艺人黄子韬发布参加某节目的微博配星空图被摄影师指出未授权使用。随后黄子韬编辑微博署名摄影师并道歉,提出加其水印。而后又将星空图全部替换,然而摄影师却不买账了,指责他销掉证据:“这样的道歉,对不起,我不接受!我才知道原来明星可以这样敢做不敢当,这样不负责任的行为你对得起你的粉丝吗?...
日期:12-23
英雄联盟蔚、烬、薇恩源计划皮肤特效展示
《英雄联盟》官方今日公布了源计划系列新皮肤测试服预览视频,这次的源计划皮肤分别属于皮城执法官蔚、戏命师烬和暗夜猎手薇恩。这次的源计划皮肤依旧保持了一惯的风格,未来科技感十足下面就来看下吧。...
日期:12-21
华为海思新四核性能曝光:很一般!
跑分网站GFXBench上已经有了海思新四核的踪迹。现在一款代号为P6S的华为终端浮出了水面,从GFXBench上显示的消息来看,它是P6的升级版,最重要的是换上了新的四核处理器。如果不出意外,P6S上搭载的四核处理器应该就是余承东口中所说性能提升50-80%以上的那款,其主频为1.6GHz,内置的基带为Balong V9R1,而GPU是来自ARM。...
日期:01-02
2019三八妇女节祝福语大全 2019女神节祝福语集锦
2019三八妇女节祝福语大全 2019女神节祝福语集锦 1、一个女人是一本书,每一本书都有人读,总有一个对书有更深理解和共鸣的人,愿女人这本书都有理解和共鸣的人,使女人每一天都象过妇女节一样幸福快乐!...
日期:12-16
智能手表厂商inWatch被曝欠薪数月 员工倒戈用官微讨薪
inWatch官网已无法访问新浪科技讯 9月30日下午消息,智能手表厂商inWatch今日被曝欠薪三四个月未发,导致管理官方微博员工倒戈,利用inWatch曝光了该事件,但目前相关微博已被完全删除,而inWatch官方微博亦无法打开。新浪...
日期:01-30
OPPO Find X今日10点开售:曲面全景屏 售价4999元
6月底,OPPO正式发布了Find X未来旗舰手机,OPPO Find X采用了双轨潜望结构、全隐藏的3D摄像头,另外就是屏占比达到93.8%的曲面全景屏。7月13日上午10点,OPPO Find X标准版将正式开卖,售价4999元。...
日期:11-27
三星大中华区总裁演讲:我如何成为中国通CEO
三星集团大中华区总裁张元基 新浪科技讯 6月16日凌晨消息,三星集团面向大学生的演讲音乐会“热情乐说”日前在北京大学举办。三星集团大中华区总裁张元基首次讲述自己如何从一个三星的基层员工成长为三星集团全球高管的方法论...
日期:12-25
原创栏目走红网络 视频网站寻差异化发展
4月28日消息,日前,一则名为《山寨新闻》的系列视频在酷6网上的点击量已经突破了500万。山寨新闻以幽默的风格和出色的现场回放模拟表演,将每日发生的重大和热门新闻深入浅出的告诉网友。 据悉,山寨新闻是由视频分享网站酷6网自创...
日期:10-04
全键盘智能手机诺基亚 N800仅2680元
诺基亚 N800是一款全键盘智能手机,配备4.1英寸TFT触摸屏,分辨率高达800×480。该机基于Linux平台,采用320MHz处理器,机身内存为128MB RAM+256MB ROM,支持WiFi功能,整体表现很不错。...
日期:12-15