阿里语音技术全面升级,移动端离线语音识别及合成效果媲美云端
9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:端上语音识别和语音合成能力首次达到媲美云端的水平,这意味着未来个人用户在移动终端即可轻松体验逼近真人的语音技术。据介绍,达摩院最新的语音技术已在淘宝直播、钉钉会议、高德导航等场景大规模应用,正全面对外开放。
语音AI的核心是让机器听懂人话、并能开口说话,语音合成和语音识别技术是实现这些目标的基础。但由于过去几年业界在语音模型上未能有突破性创新,高精度的语音交互任务长期依赖云端算力,造成了语音指令处理不可避免的延时等问题。
此次达摩院率先在算法模型上实现创新,推出E2E-ASR端到端语音识别技术及全新的端上KAN-TTS语音合成技术,首次在移动终端上实现接近云端的语音识别与合成效果。
据介绍,在语音识别方面,达摩院提出SAN-M网络结构及基于SCAMA的流式端到端语音识别框架,提升计算效率的同时,还将高难度场景中的语音识别错误率降低近三成。达摩院研发的语音识别系统,可纯离线、低成本部署在手机端,原型系统不到40MB,识别效果媲美超过100GB的达摩院上一代DFSMN-CTC云端系统。
继去年发布仿真率可达97%的自研KAN-TTS语音合成模型后,达摩院此次在移动端实现了对语音模型的“大瘦身”,相比云端,端上模型大小压缩了101倍,计算量压缩35倍,通过终端算力即可快速复现逼近真人的语音。例如,高德地图近期发布了利用达摩院全新语音技术合成的李佳琦、林志玲、小团团等明星导航语音包,语音效果较之前更自然,断网状态下语音导航也不会中断。
达摩院语音实验室负责人鄢志杰表示,“在终端处理语音任务一直是学术界和工业界的难题,达摩院最新的语音技术有效释放了终端设备的能力,让终端也能轻松处理语音任务,我们相信,在终端算力和云端算力的协同支撑下,未来语音交互将无处不在。”
过去几年,阿里语音AI取得了一系列突破。2019年,阿里语音AI入选《麻省理工评论》“全球十大突破性技术”,是唯一上榜的中国科技公司;今年7月IDC发布的《中国AI云服务市场半年度研究报告》显示,阿里语音AI以44%的市场份额,在云上语音AI市场中位居第一。
最近更新
-
施华蔻因染发剂不合规被罚超259万元半月内两次回应
2021-09-15 16:37
-
美团重申:严禁诱导和强迫骑手注册个体工商户!
2021-09-15 10:38
-
“十三暗香”?时代风云变幻,苹果还是苹果!
2021-09-15 10:02
-
最强A15处理器,120Hz终到来,苹果发布会上的产品亮点有哪些?
2021-09-15 04:37
- 联华证券-股票分类与涨跌因素解析:了解股票市场的基本概念
- 中国能建建筑集团承建的安徽省首座9F级燃气电厂投产
- 特斯拉一季度净利润近乎腰斩,未来将推出低价车型参与竞争
- 4月25日盘前内参
- 【专注龙头】
- 广誉远融资余额7.69亿元,已被罚投资者可索赔
- 怡宝母公司冲刺上市:产能未满仍要募资扩产,突击分红25亿元
- 联想找对AI终端路线图
- 汤臣倍健一季度营收达26.46亿元发布首份ESG报告加注长期发展理念
- 全栈AI!新质生产力的一场集中预演
专栏推荐
-
研选
浓缩机构研究精华,提前捕捉市场风口
2018人已购
¥258.00/月
-
尾盘擒牛之如何选股?
学完这些方法,告别选股难!
117人已购
¥288.00/月
-
财报拆解
知识点解读+实战案例,帮你5小时学会看财报
73人已购
¥19.90/月
-
每周一股
每周日定期更新【每周一股】,为广大的投资者精选下周短线个股!
338人已购
¥588.00/月
推荐阅读
- 中核钛白实控人被罚没1.33亿,其父旗下私募曾操纵广汽集团股价
- 小K播早报|Alphabet、微软财报超预期 北京市目标到2027年实现智算基础设施软硬件产品全栈自主可控
- 4月26日不可错过的股市资讯(美股出利空,A股两大利好)
- 政策利好大盘风格,龙头指数有望占优,摩根中证A50ETF(560350)规模份额持续创新高!
- 早报(04.26)|重磅数据挫伤美股!Meta一日蒸发千亿美元;高层报告宣布打造金融“国家队”!董秘名字写错3次,上交所出手!
- 敏芯股份(688286.SH):2023年全年净亏损1.02亿元,亏损同比增加85.08%
- 杉杉股份2023年报:负极、偏光片出货量创新高,优质赛道双龙头地位稳固
- 去年净利大降Q4遭遇首亏的硅片龙头再掷55亿投建电池项目
- 信息量很大,欧洲一哥要炒掉欧洲一姐!
- 系列策划:扒一扒有嫌疑的IPO案例-顶固集创(300749.SZ)
- IEA:电池正在改变游戏规则 对实现气候和能源目标至关重要
- 阿斯麦业绩爆雷背后,美国会议员成股神,对华芯片制裁损友肥己