英特尔帮助人工智能语言识别

2022-01-18 15:58 来源：电子说

在最近举行的NeurIPS大会上，发表了两篇英特尔支持的口语数据集白皮书，其中《人的语言》主要涉及“自动语音识别”任务，另一卷3354《多语种口语语料库》涵盖“关键词识别”。这两个项目的数据集贡献了大量丰富的音频数据，每个数据集的可用容量都是同类中最大的。

《多语种口语语料库》由英特尔软件和高级技术部门(SATG)的机器学习工程师Keith Achorn撰写。Keith在英特尔社区网站的博客中讲述了自己参与这个项目的经历。

在ML Commons的支持下，“人类语言”和“多语言口语语料库”于2018年启动。该项目旨在确定世界上最常用的50种语言，并将其统一到一个单一的数据集中，以便有效地使用这些数据。项目团队成员来自英特尔、哈佛大学、阿里巴巴、甲骨文、Landing AI、密歇根大学、谷歌、百度等。

在当今多元化、国际化、多语言的工作环境中，准确的转录和翻译能力变得越来越重要。通过使用上述数据集，计算机可以“听到”口语单词，并自动生成文本或翻译。

这两个项目都使用了“多样化的声音”，这意味着它们可以更好地展示自然环境声音，如背景噪音、非正式语言模式、录音设备混音等声学环境。这与有声读物等高度受控的内容不同，后者会产生更“纯净”的声音。然而，在实际应用中，多样化的语音训练有助于提高识别的准确性。

“人类语言”项目包含数万小时的对话音频。今天，它是世界上最大的英语语音识别数据集之一，可以免费下载，用于学术和商业目的。

“多语种口语语料库”是一个音频和语音数据集，不仅拥有数十种语言，超过30万个关键词，可以通过智能设备访问，还覆盖了50多亿用户的日常对话，有助于推动全球受众语音应用的研发。

这两个数据集都将提供给广泛的用户应用，它们的许可条款包括商业用途都相对宽松。

原标题：英特尔助力人工智能语言识别

延伸 · 阅读

栏目图文

热门话题