
声纹识别技术,又称说话人识别技术(Speaker Recognition),是一项通过语音信号提取代表说话人身份的相关特征(如反映声门开合频率的基频特征、反映口腔大小形状及声道长度的频谱特征等),进而识别出说话人身份等工作方面的技术。它可以广泛应用于国家安全、刑侦、电话银行、智能门禁及娱乐增值等领域。
声纹识别技术的主要技术难题是声纹特征会受到说话人的身体状况、说话的方式、录音信道及环境噪音的干扰而波动,以及在输入语音较短时难以准确估计声纹模型等。
下图给出了声纹识别技术的主要技术框架示意。声纹识别技术的应用分为两个步骤:1)声纹注册:用户的一段语音经过语音端点检测、噪声和信道干扰消除之后提取到声纹特征,经过一个声纹注册环节可以得到该用户所对应的声纹模型。2)声纹测试:用户或者冒认者的一段语音经过同样的处理提取到声纹特征后,经过与注册得到的声纹模型进行声纹匹配处理,获得当前语音是来自注册用户的置信度得分,并根据一定的门限判断,获得当前语音是否来自某个注册用户的识别结果。声纹识别可以分为声纹鉴别(Speaker Identification)和声纹确认(Speaker Verification)两种应用模式,声纹鉴别指判断一段语音来自多个注册用户中的哪个说话人,声纹确认则只是判断当前输入语音是否来自指定用户。
2008年6月,在国际上规模与影响力最大、由NIST(美国国家标准技术研究院)从1997年开始举办的国际说话人识别评测大赛上(2008 NIST Speaker Recognition Evaluation),科大讯飞语音实验室送评的识别系统获得综合指标第一名的优异成绩,表明科大讯飞已经在全球语音技术领域内取得了从语音合成到语音识别技术的全面领先地位。

|