嵌入式Linux中文站

Mozilla 开源最新语音技术:错误率仅 6.5%


近日,Mozilla 技术战略副总裁 Sean White 宣布将推出第一个开源的语音识别版本,其发音准确性已经接近普通人的水平。

遗憾的是该项目的语音数据依然较少,应用领域十分有限,因此 Mozilla 公司希望通过开源的方式让更多的研究人员与公司参与这项功能的开发。

Mozilla 采用了先进的机器学习技术来构建语音文本转换引擎,经 LibriSpeech 测试,错误率仅为 6.5%。该语音版本包含了 Python、NodeJS 和一个二进制命令行文件的预建包,开发人员可以使用它们来完善语音识别功能。

此次开源将发布近 40 万个录音,并且任何人都可以下载这些数据,它们希望通过开源的方式建立一个人人都可以使用的语音数据库进而开发出相应的语音应用程序。

目前该公司已经开始对英文进行录音,预计在 2018 年上半年它们将会对更多语言的语音进行录音。

Mozilla开源最新语音技术:错误率仅6.5%

本文永久更新链接:http://embeddedlinux.org.cn/emb-linux/industry-news/201712/03-7849.html



分享:

评论