腻害:百度推出的音频文件转文本应用比人工速记快1.67倍

Flora| 2017-03-15 来源: 新闻 评论数( 0 )

近日,百度宣布推出一款能将音频转化为文字的SwiftScribe网页应用,将改变完全依赖人工的速记行业现状。该网页应用背靠百度深度语音识别系统,将音频文件转为文本,转化效率较人工速记快1.67倍。

百度首席科学家吴恩达认为,这一应用将改变采访和视频字幕生成,他在社交网络上评论称:“该应用非常适合将长语音转换为文本的人士,人工智能将实现1+1大于2的效果。”

具体应用方面,用户可在PC端打开SwiftScribe网页应用,选取wav和mp3格式的文件上传,系统就能马上进行处理,时长1分钟的音频文件可以在30秒内转换完成。用户可使用键盘快捷键就能进行加快播放、后退和添加换行符等操作,处理完成后,只需人工调整大小写、标点及部分拼写细节即可快捷、准确地完成音频转换。

从使用效果看,SwiftScribe可为速记员带来1.67倍的效率提升,缩短40%的工作时间。目前该系统可处理1小时内的音频文件。

据悉,百度首先会邀请30-50名速记员对该应用的测试版本进行测试。

百度方面透露,该应用未来会增加视频文件的语音识别及自动添加标点符号等功能,并支持更多文件格式,降低用户使用门槛。

此次推出的SwiftScribe网页应用,依托于百度新一代深度语音识别系统Deep Speech 2,该系统曾被《麻省理工科技评论》评为“2016年十大突破技术”之一。通过利用长达数千小时的语音数据训练,Deep Speech 2可以不断“学习”从语音中识别特定的字或词。

2016年9月1日,在2016百度世界大会上,百度董事长兼首席执行官李彦宏表示,百度语音识别的准确率能够达到97%,已经超过了人对语音的识别能力。

据了解,百度在2016年推出了应用DeepSpeech2的安卓输入法TalkType,让用户能够用语音快速输入文字。百度硅谷人工智能实验室项目领导人Bijit Halder在公告中称:“TalkType是首款智能语音优先输入法。”

对话机器将成为2017人工智能的发展风口,百度吴恩达曾在接受《华尔街日报》采访时表示,随着准确率的提高和用户体验的提升,百度的语音产品已度过用户心目中的“试用期”。在语音产品迅猛发展的大环境下,亚马逊、苹果、谷歌和微软等科技巨头都在加紧研发各自的语音识别技术。

国内的智能语音及语言技术、人工智能技术研究公司科大讯飞,此前已经推出了以语音转文字为核心业务的转写服务平台——讯飞听见网站。据该网站介绍,科大讯飞的机器转写服务一小时音频约5分钟转写成稿。如果是音质清晰、普通话标准的音频,转写正确率可达90%以上。

目前,百度SwiftScribe音频转换服务免费对外开放。据百度方面人士透露,未来希望将该应用向商业化应用转变。

聚焦云计算,扫描二维码,关注HostUCan云计算

有好的文章希望站长之间帮助分享推广,猛戳这里我要投稿

您需要登录后才可以评论登录|注冊

暂无评论