语音识别(Auto Speech Recognize,简称 AS)是机器将语音转化为相应文本或命令的技术。从发展历史来看,语音识别经历了 2 个技术阶段:1)GMM 计算概率分布-HMM 决策判断:GMM 是高斯混合模型,HMM 是隐马尔可夫模型,两者结合将语音识别正确率提升至约80%,不过该正确率仍然难以满足商业化需要。2)深度学习:2011 年深度学习技术被引入语音识别,语音识别正确率突破了技术瓶颈(2017 年识别正确率已达 95%),Siri、Google Assistant、Echo 等一系列商业化产品随之涌现。2011年,微软研究院提出的基于 上下文相关深度神经网络 和 隐马尔可夫模型 的声学模型在大词汇量连续语音识别任务上获得了显著的性能提升,从此大量研究人员开始转向深度学习在智能语音领域的研究,2016年,机器语音识别准确率第一次达到人类水平,意味着智能语音技术的落地期到来。近年,研究方向主要是端到端神经网络及针对实际应用中的算法优化。
图表 智能语音技术发展历程示意图 (以语音领域模式识别为主)
不过,95%的正确率仅能满足偶尔使用需求,语音彻底取代键盘成为最常用人机交互模式仍有待于正确率的进一步提升。语音识别可分为“降噪-特征提取-解码”三个环节,深度学习提升“特征-单词”映射正确率。语音识别首先对输入的语音信号进行清洗,然后将信号切割成若干片段并抽取辨别单词的语音特征,最后根据深度学习生成的语音模型将提取特征映射到单词。
图表 语音识别分为“降噪-特征提取-解码”三个环节
全球智能语音识别错误率连续降低,从 2008 年的 23.6%降低到 2017年的 5.5%。随着技术的进一步发展,国内智能语音厂商也在不断打破准确率记录,不断刷新准确率上限。2018 年 6 月,阿里巴巴推出了新一代语音识别模型 DFSMN,将全球语音识别准确率纪录提高至96.04%;2018年10月,云从科技发布全新Pyramidal-FSMN语音识别模型,将全球语音识别准确率纪录提高至 97.03%;科大讯飞也在 2018 年宣布其旗下的讯飞输入法能够达到 98%的语音识别准确率。这说明,中国智能语音应用层技术已经完全达到落地标准,应用落地已获得技术上的充分支持,智能语音应用落地大有可为。
中国人工智能语音识别市场规模也在高速增长,在 2018 年达到了 159.7 亿元; 2019 年中国智能语音市场规模达到198.2亿元亿元。
图表 2015-2019年我国语音识别市场规模