欢迎您访问 abg欧博官网有限公司官方网站

abg欧博官网简介 联系我们

欢迎来电咨询

068-578099824

abg欧博官网客户案例

全国服务热线

068-578099824

技术过硬,据实报价

案例分类4

当前位置:主页 > abg欧博官网客户案例 > 案例分类4 >

百度AI输入法迈入全感官输入2.0时代,语音技术取得世界级突破

2024-04-07 01:20 已有人浏览
本文摘要:120种语言,覆盖面积全球190个国家地区,并已与多达100个全球著名IP达成协议合作。总结来说,百度输入法AI探寻版功能创意共计三点:新的交互、新的传达、新探索。 新的交互:首次明确提出流式切断的多层注意力模型(SMLTA)此次公布的百度输入法 AI 探寻版,是一款仅有语音交互的输入法,其配置文件输出方式为语音输入。

abg欧博官网

120种语言,覆盖面积全球190个国家地区,并已与多达100个全球著名IP达成协议合作。总结来说,百度输入法AI探寻版功能创意共计三点:新的交互、新的传达、新探索。

新的交互:首次明确提出流式切断的多层注意力模型(SMLTA)此次公布的百度输入法 AI 探寻版,是一款仅有语音交互的输入法,其配置文件输出方式为语音输入。录:百度语音技术部负责人 高亮首先,在线语音辨识领域:百度首次公布流式切断多层注意力建模(SMLTA),据介绍,这是中文在线语音辨识历史上的两个重大突破:世界上首次构建了局部注意力建模辨识精度多达全局注意力模型;世界上第一次大规模部署在线语音交互注意力模型。语音领域 Attention 模型(注意力模型)的明确提出有数好几年的时间,注意力模型的核心思想,是通过机器学习的方法,把一句话中每个音节或者汉字的音频特征,从整句话的音频特征中,通过机器学习的方法,自动的挖出出来。

其建模过程几乎舍弃了传统语音辨识的状态建模和按语音帧展开解码等传统技术框架。必要构建了语音和文本一体化的末端到末端建模,从而沦为普遍认为的有更高的建模精度的建模方法。近几年,不少专家和学者都在语音辨识任务中尝试了注意力模型,实验室环境下,相对于传统技术,也取得到了一系列的提高。但是累计目前,注意力模型在在线语音服务中的大规模用于,仍然少有顺利案例。

主要是因为语音辨识的注意力模型不存在两个问题:流式解码的问题和长句建模的精度上升问题。针对以上问题,百度语音技术团队明确提出了 SMLTA 模型(流式多级切断注意力模型 Streaming trancated multi-layer attention),这种建模方法的识别率不但打破了传统的全局 Attention 建模,同时还需要维持计算出来量、解码速度等在线资源花费和传统CTC模型持平。据介绍,SMLTA模型是基于 CTC 的尖峰信息对语音流展开切断,然后在每一切断的语音小段上展开当前建模单元的注意力建模。

SMLTA 把原本的全局的整句 Attention 建模,变为了局部语音小段的 Attention 的建模。同时,为了解决 CTC 模型的不可避免的放入移除错误对系统导致的影响,该算法引进一种类似的多级 Attention 机制,构建特征层层连贯的更加精准的特征选择。最后,这种建模方法的识别率不但打破了传统的全局 Attention 建模,同时还需要维持计算出来量、解码速度等在线资源花费和传统 CTC 模型持平。这一技术需要解决问题传统 Attention 模型在辨识中的时延性,以及因此造成的无法展开大规模在线语音动态交互的问题,并将在线语音比较准确率提高15%,百度输入法在线语音比较准确率仍然好于拟合竞品15%。

迄今为止,百度语音辨识模型经历了从 DNN、CNN、LSTM 和深度尖峰一代、二代的递归再行到近期的 SMLTA 模型递归过程,至于这种演进过程所遵循的依据是什么,高亮在拒绝接受还包括在内的媒体专访时回应:递归过程有一些路径难以确定,最开始的时候我们用 RNN 做到,然后过渡到 CNN,是因为 CNN 并行计算的能力尤其强劲。到后来找到,LSTM 的模型逻辑上对于我们早已说道出来的语音追溯性较为强劲,因为它有一定的记忆能力。

后来引进 CTC,更好的并不是说道在模型上的转变,而是把代价函数逆了。这样的话,引进尖峰就不会预测得更佳。

这次把这种局部流式的 Attention 又给引入来,相等前后的 Correlation,也就是出来一个字以后,我再行打一个字的话,根据前面输出的字来预测后者经常出现哪个字的准确度不会更进一步强化。其次,离线语音输入领域:过去,离线语音与在线语音比起,准确率相差悬殊,体验得到显然解决问题。

面临这一实际问题,百度语音技术团队优化了输入法上嵌入式辨识的 deep peak2 系统,大幅度提高了离线语音辨识准确率。据介绍,目前百度输入法「离线语音」输出准确率已低于行业平均水平35%。除此之外,百度输入法还发售了「中英权利说道」、「方言权利说道」功能,前者可以构建在几乎不影响中文语音输入准确率的情况下,低精准的中英文混合语音诸法输出;后者将普通话和六大方言融合成一个语音辨识模型,构建了方言与方言、方言与普通话的混合语音输入。

新的传达:表情、动作沦为输出新的方式除了语音输入,百度中文输入法负责人蔡玉婷在现场还讲解了拍立活、秀场、表情秀社区等新的玩法。“拍立活”功能可以让用户通过自己的动作“驱动”偶像或宠物作出完全相同表情;发布会现场,百度特地邀来了网红“发际线哥”展示了该项功能。“秀场”功能采行图像拆分技术,因应360度全景动态素材,可以将人物置身于虚拟世界场景,减少创作表情时的场景感觉,用户获取了更为非常丰富、生活的表达方式。

同时,百度输入法AI探寻版修筑了“表情秀”社区,用户可以把制做冷笑话的AR表情必要共享到社区,被点赞最少的表情制作者不会被给与“表情帝”的封号,并不会阶段性给与奖励。目前“表情秀”社区早已有多个明星、网红、以及民间高手进驻。新探索:发售“凌空手写”功能发布会现场,蔡玉婷讲解了一款百度自律研发发售的“炫酷”功能——凌空手写。


本文关键词:abg欧博官网,百度,输入法,迈入,全,感官,输入,2.0时代,语音

本文来源:abg欧博官网-www.0395weixin.com