English Version
股票代码:002230    关键字:  
语音合成技术

语音合成(Text-To-Speech,简称TTS),是一种通过计算机能够将任意文字信息实时转化为标准、流畅语音的技术,相当于给机器装上了一个人工嘴巴。牵涉到对文本的分析处理、数字信号处理、声音感知等多种前沿的高新科技,横跨声学、语言学、数字信号处理、多媒体等多个学科,是中文信息处理领域的一项前沿技术。作为信息技术的尖端研究领域,语音合成技术(特别是中文语音合成技术)一直受到国内外许多公司、研究机构的关注,IBM、英特尔、微软、L&H、摩托罗拉等国外大公司都投入巨大的人力、财力进行研究,语音曾被盖茨誉为21世纪最有发展前途的产业。国内的中国科技大学、中科院声学所、清华大学等单位也一直在国家重大项目的支持下进行相关的研究。

国内外语音合成技术的研究大致都经历了共振峰合成、LPC合成直到应用PSOLA技术的过程。但是即使是采用了基于PSOLA方法的时域波形拼接技术的合成系统,虽然其合成汉语普通话的可懂度、清晰度达到了很高的水平,但是同国外其它语种的语音合成系统一样,这些系统合成的句子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的程度,从而制约了这项技术的大规模进入市场。

1998年中国科技大学在国家863计划和国家自然科学基金委支持下,研制成功KD-863汉语语音合成系统。和采用国内外流行的PSOLA技术的系统相比,在输出语音的音质和自然度上有了突破性的提高。KD-863采用了一种全新的基于大语料库的语音合成方法,该技术的基本思想是将实际语流中汉语音节千变万化的音变进 行听感上的量化归并,设计出多样本的汉语语音基元库,这个库蕴涵了汉语韵律变化信息,合成时只要通过对基元库样本的选取便可实现韵律控制。同时语音基元库中的样本是直接从自然语音中截取,避免了采用信号处理技术获取音变单元对音质的损害,因而合成语音具有接近自然语音的音质。

KD-863系统参加了在1998年4月国家科委组织的全国汉语语音合成系统的性能评测,其输出语音的自然度居同类系统之首,是唯一达到用户可以接受程度的系统,并因此诞生了现在的科大讯飞公司。

在国家863的支持下,科大讯飞公司整合国内优势资源,并进一步加大了语音合成技术的研究力度,解决了特殊符号处理、分词处理、拼接处理等一系列重大问题,从而使语音合成系统的整体性能有了更大的提高,在国内外同类技术中脱颖而出,成为语音合成技术领域内的“领头羊”。目前科大讯飞语音合成系统的效果已经远远超过普通人的说话水平,并与专业播音员的水平已经非常接近。

皖ICP备05001217号    © 版权所有   安徽科大讯飞信息科技股份有限公司