阿里语音技术正全面对外开放 移动端已实现逼近真人语音交互体验
《科创板日报》(上海,记者 戚夜云)讯,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:端上语音识别和语音合成能力首次达到云端的水平,这意味着未来个人用户在移动终端即可轻松体验逼近真人的语音技术。据介绍,达摩院最新的语音技术已在淘宝直播、钉钉会议、高德导航等场景大规模应用,正全面对外开放。
语音AI的核心是让机器听懂人话、并能开口说话,语音合成和语音识别技术是实现这些目标的基础。但由于过去几年业界在语音模型上未能有突破性创新,高精度的语音交互任务长期依赖云端算力,造成了语音指令处理不可避免的延时等问题。
此次达摩院率先在算法模型上实现创新,推出E2E-ASR端到端语音识别技术及全新的端上KAN-TTS语音合成技术,首次在移动终端上实现接近云端的语音识别与合成效果。
据介绍,在语音识别方面,达摩院提出SAN-M网络结构及基于SCAMA的流式端到端语音识别框架,提升计算效率的同时,还将高难度场景中的语音识别错误率降低近三成。达摩院研发的语音识别系统,可纯离线、低成本部署在手机端,原型系统不到40MB,识别效果媲美超过100GB的达摩院上一代DFSMN-CTC云端系统。
继去年发布仿真率可达97%的自研KAN-TTS语音合成模型后,达摩院此次在移动端实现了对语音模型的“大瘦身”,相比云端,端上模型大小压缩了101倍,计算量压缩35倍,通过终端算力即可快速复现逼近真人的语音。例如,高德地图近期发布了利用达摩院全新语音技术合成的李佳琦、林志玲、小团团等明星导航语音包,语音效果较之前更自然,断网状态下语音导航也不会中断。
达摩院语音实验室负责人鄢志杰表示,“在终端处理语音任务一直是学术界和工业界的难题,达摩院最新的语音技术有效释放了终端设备的能力,让终端也能轻松处理语音任务,我们相信,在终端算力和云端算力的协同支撑下,未来语音交互将无处不在。”
今年7月IDC发布的《中国AI云服务市场半年度研究报告》显示,阿里语音AI以44%的市场份额,在云上语音AI市场中位居第一。
最近更新
-
OpenAI最大对手推出iOS版APP 以期与ChatGPT展开竞争
01:38
-
“华为系”首度集中亮相 问界M9 4月销量破万、小米SU7完胜智界S7
昨天 22:36
-
下一代动力电池“胎动”!快充超充新品迭出,固态已成车厂“共识”? |直击重庆CIBF
昨天 22:02
-
走出低迷,PCB稼动率提升 上市公司释放“好转”消息 争相发力高端品类
昨天 19:37
- 心悦交付|随州交投·金科府二期如约交付
- 节前icu,合成生物成最后一环,盘后大利好,小作文的功劳,节后再战
- 北向偏爱两行业,一个买了23亿,另一个买了30亿
- 外围大跌重磅会议靴子落地
- 华润饮料递表港交所:“突击”分红25亿元,谁为“怡宝”买单?
- 亚洲首批虚拟资产现货ETF上市
- 心悦交付|无锡金科·蠡湖:带你奔赴生活的真意
- 北向资金本周流出这些品种!
- 因为去了趟中国,马斯克被印度骂惨了
- 喜报|海科新源顺利通过IATF16949汽车行业质量管理体系认证
专栏推荐
-
研选
浓缩机构研究精华,提前捕捉市场风口
2021人已购
¥258.00/月
-
尾盘擒牛之如何选股?
学完这些方法,告别选股难!
117人已购
¥288.00/月
-
财报拆解
知识点解读+实战案例,帮你5小时学会看财报
73人已购
¥19.90/月
-
每周一股
每周日定期更新【每周一股】,为广大的投资者精选下周短线个股!
339人已购
¥588.00/月
推荐阅读
- OpenAI最大对手推出iOS版APP 以期与ChatGPT展开竞争
- 佐力药业:唯一打破垄断公司,护城河又宽又深!
- 合川金星智慧零碳电厂项目顺利开工
- 守住3100点!沪指“红五月”可期吗?
- “华为系”首度集中亮相 问界M9 4月销量破万、小米SU7完胜智界S7
- 锦泰财险高管吃紧:总裁尚未落定,三位副总接连出走!
- 走出低迷,PCB稼动率提升 上市公司释放“好转”消息 争相发力高端品类
- 2024/2025第一次国家花样滑冰等级测试成都站举行
- A股分红王来了,两股派现超千亿!这50股一年利润全分完
- 2024年4月河北新三板企业市值TOP100:17家企业冲击北交所
- 从迈瑞的公益路,看见科技的温度
- 比特币跌破60000美元大关!美国滞胀担忧加剧 加密世界集体“失宠”