英特尔帮助人工智能语言识别

2022-01-18 15:58 来源:电子说

在最近举行的NeurIPS大会上,发表了两篇英特尔支持的口语数据集白皮书,其中《人的语言》主要涉及“自动语音识别”任务,另一卷3354《多语种口语语料库》涵盖“关键词识别”。这两个项目的数据集贡献了大量丰富的音频数据,每个数据集的可用容量都是同类中最大的。

《多语种口语语料库》由英特尔软件和高级技术部门(SATG)的机器学习工程师Keith Achorn撰写。Keith在英特尔社区网站的博客中讲述了自己参与这个项目的经历。

在ML Commons的支持下,“人类语言”和“多语言口语语料库”于2018年启动。该项目旨在确定世界上最常用的50种语言,并将其统一到一个单一的数据集中,以便有效地使用这些数据。项目团队成员来自英特尔、哈佛大学、阿里巴巴、甲骨文、Landing AI、密歇根大学、谷歌、百度等。

在当今多元化、国际化、多语言的工作环境中,准确的转录和翻译能力变得越来越重要。通过使用上述数据集,计算机可以“听到”口语单词,并自动生成文本或翻译。

这两个项目都使用了“多样化的声音”,这意味着它们可以更好地展示自然环境声音,如背景噪音、非正式语言模式、录音设备混音等声学环境。这与有声读物等高度受控的内容不同,后者会产生更“纯净”的声音。然而,在实际应用中,多样化的语音训练有助于提高识别的准确性。

“人类语言”项目包含数万小时的对话音频。今天,它是世界上最大的英语语音识别数据集之一,可以免费下载,用于学术和商业目的。

“多语种口语语料库”是一个音频和语音数据集,不仅拥有数十种语言,超过30万个关键词,可以通过智能设备访问,还覆盖了50多亿用户的日常对话,有助于推动全球受众语音应用的研发。

这两个数据集都将提供给广泛的用户应用,它们的许可条款包括商业用途都相对宽松。

原标题:英特尔助力人工智能语言识别

延伸 · 阅读