语音识别是一门研究让机器能听懂人类口述自然语言的学科,相当于给机器装上一个人工的“耳朵”。听懂有两层含意,第一层是将这种口述语言逐词(字)逐句地转换为相应的文字,例如对口授文章作听写;第二层则是对口述语言中所包含的要求或询问作出正确的相应,而不拘泥于所有词正确转换为书面文字。语音识别和语音合成相结合,即构成一个完整的"人-机对话通讯系统"。由于计算机的迅速应用和普及,通过键盘、鼠标等手段的传统人机对话模式已经不能适应人与机器之间的交互要求,人们非常希望能把人类之间快速、方便、直接和高效的通讯方式-自然语音用于人机通讯的媒介。语音识别可以从对发音方式和说话人的限制、所要识别的词表大小和说话内容范围等角度出发分类,识别难度不一。例如从最简单的小词表、认人、孤立发音识别到大词表、不认人连续语音的识别,从规范的书面朗读语言识别到完全不限领域的自然口语识别和理解,从安静的办公室环境到嘈杂的室外环境等。
在语音识别方法中,目前占主导地位的是基于统计的方法。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。人类完善的语言听觉功能是在复杂的社会环境中逐步建立起来的,要让计算机具有同人类相当的听觉智能具有相当的困难。这些困难表现在对语音信号可变性和自然语言不规范性的建模上。在声学层面上,语音信号随着说话人个人的生理因素、社会因素,语音的上下文环境,背景和输入通道的差异而会产生很大的变化;在语言层面上,语言的的歧义性和语言结构的随意性在日常语言中随处可见,自然口语发音中的次序颠倒、重复、修正、非语言信号的插入等不规范现象给语言处理带来很大的困难。事实上,只有建立从声学、语音学到语言学的知识为基础的语音处理机制,才有可能获得能与人类相比的高性能的计算机语音识别系统。
近年来,语音识别技术已经取得了巨大的进展。在大词表、不认人、连续语音的识别上,目前世界上最先进的电话语音识别系统――Nuance8.5对大多数说话人的词识别错误率已降低到5%-10%的水平。如果作一些说话人自适应的话,则对大多数人来说其错误率可进一步下降到5%以下。目前语音识别的研究重点正转向特定应用领域的口语识别和理解上。而基于口语识别、机器翻译和语音合成的多语种口语互译系统的研究也受到了各方面的重视,它将对最终不同语种人类之间的自由通讯发挥更大的作用。 |