语音识别技术的发展趋势

语音识别技术的发展趋势是应用场景越来越丰富。

在过去的两年中,自动语音识别在商业上取得了重要的发展。指标之一就是很多完全基于神经网络的企业级ASR模型成功上市,比如Alexa、Rev、AssemblyAI、ASAPP等微软研究院在2016发表了一篇文章,宣布他们的模型在25年的Switchboard数据集上已经达到了人类的水平。

随着ASR技术的识别准确率大幅提升,应用场景越来越丰富,我们认为现在还不是ASR商业化的巅峰,该领域的研究和市场应用还有待探索。预计未来十年,AI语音的相关研究和商用系统将集中在以下五个领域,如多语言ASR模型、丰富的标准化输出对象、面向每个人的大规模ASR、人机协作和负责任的ASR。

语音识别基础

语音识别是一门涉及心理学、生理学、声学、语言学、信息论、信号处理、计算机科学、模式识别等多学科的交叉学科。它具有广阔的应用前景,如语音检索、命令控制、自动客服、自动机器翻译等。当今,信息社会的快速发展迫切需要性能优越的自动语音识别技术,能够满足各种需求。

对自动语音识别的探索实际上早于计算机的出现。早期的声码器可以看作是语音合成和识别技术的雏形。20世纪出现的Radio Rex玩具狗可能是人类历史上最早的语音识别机。现代自动语音识别技术可以追溯到20世纪50年代。贝尔实验室的研究人员利用模拟元件提取并分析元音的共振峰信息,实现了对十个英文孤立数字的识别功能。