轻量级语音技术除了需要解决“重量要轻”(系统尺寸要小)、“耗能要少”(处理器能力要求较低)的核心问题外还需要解决各行业客户的个性化要求,比如多发音人,多种可定制的背景音乐,可定制的语音合成库等;为了解决上述问题,科大讯飞在Intersound 4.0 KT的基础上于今年5月份推出了增加用户个性化需求的升级版本Intersound 4.2产品。
InterSound 4.2产品较Intersound4.0的效率有所提高,实现了多音库叠加要求的1+1<1(暨具备多个音库的合成系统所需要的尺寸较单个音库的叠加要小很多),并且在多发音人、音效特性、定制合成等方面取得了突破性的进展:
首先,InterSound 4.2系统为中英文双引擎系统,实现了中英文混读,英文单词发声,满足了简单的英文语音合成需求,预计在今年下半年,我们将会推出更加成熟的英文合成系统。
InterSound 4.2 系统在音库资源占用上也有了突破性的进展。通过优化,使得配置一个角色的音库资源降到了500K以内,最小可以做到200K。这样就使得客户在使用我们的软核时可有更多的选择,可以在产品中集成更多的音库,由此最终客户也就可以自主选择播报音色,大大增加了产品的个性化。
在前面提到的音库资源占用优化的基础之上,为了进一步达到让客户的产品更加具有个性化的目的,InterSound 4.2在发音人上也进一步加以完善,增加了发音人的数量,目前已经可以提供多达13种不同风格的音色资源。这些发音人包括中文男女声、中英文男女声、英文女声、中文童声、中英文童声等等。另外,针对一些台湾客户的需求,我们还专门请了台湾本地人来录音,制作了台湾腔女声音库,为产品在台湾地区的推广奠定良好的了基础。这些音库的增加,大大满足了不同用户对于产品的不同需求。为产品的进一步应用和市场开拓打下了更加坚实的基础。
InterSound 4.2语音合成系统对于娱乐性的改善还体现在多种特色的音效上。为满足各种环境下的使用InterSound 4.2系统特别开发了7种不同的音效,包括忽远忽近、机器人、合唱、混响、水下、回声等等。这些音效都各有特色,例如回声,给人感觉非常真切,而混响的声音就非常有穿透力,阴阳怪气的音效很有趣等等,满足了最终用户在追求实用的同时对于娱乐性的需要。并且有些特殊情况下,使用一些特殊音效还可能会给产品应用增添光彩,例如在人多的场合,具有穿透力的混响就可以大有作为,而如果客户想做机器人,可能会选择机器人的音效。
另外,InterSound 4.2丰富的前端分析使得系统支持在不同语境下的不同发声,如多音字、数字、数值、词组等,系统可自动判别其类别及语境,并且做出正确的发音。系统还支持多种编码,包括GB2312、GBK、Unicode的UTF-8-16Big5繁体编码等。此外,系统的流式合成模式,使得要合成的文本不再需要一次性输入到合成引擎中,而可以以流方式分次输入。
嵌入式语音技术的应用,相当于给设备装上了嘴巴和耳朵,随着语音识别技术的进一步成熟,相信语音技术在各领域将会展现出广阔的应用前景,根据信息产业部的数据,截止2006年3月份,我国移动电话用户总量已经超过4亿,手机这个产业蕴含着巨大的商机,且仍然在不断发展中,但是随着手机向智能化和娱乐化方向的不断发展,相信语音技术在手机行业的大规模应用指日可待。
在车载行业,需要运用到语音技术的设备也越来越多,并且随着汽车工业的迅速发展,语音技术在车载环境下应用的需求越来越突出。车载语音导航已经是车载导航产业的必然方向,其他如调度,监控等等对语音技术的需求都比较强烈,随着汽车电子的进一步发展,语音技术有望在这个领域得到较为全面的应用。
另外,在税控机,排队机,电子词典等等行业,也已经表现出越来越多的需求。语音技术作为各种设备智能化发展的重要方面,已经在向人们生活的方方面面渗透,可能还有更多对语音技术的巨大需求等着我们去发现和开拓。