随着计算机计算能力和存储能力的不断提高,以及人类对汉语普通话连续语流特点研究的进一步深入,采用大语料库技术进行语音合成、实现高自然度高表现力合成语音的方法越来越受到重视。基于语料库的波形拼接合成技术也是科大讯飞所采用的主要技术,即从录制的大规模自然语流数据库中按照合适的声学、语音学算法提取合适的单元合成出连续的语流。在合成系统的实现过程中,充分运用语言学、语音学、统计分析、人工智能、数字信号处理等的先进技术,一切从人类语音自然的角度出发,使合成的语音自然度超过普通人说话的水平。
有效的文本语料库的设计 语料设计在大语料库语音合成技术中占有非常重要的地位。语料设计的一个重要原则是:用尽量少的语料覆盖尽可能多的自然语言现象。这样既可以保证音库容量不会太大,又能保证合成语音的质量。基于这样的语料设计原则,科大讯飞在语料库设计中做了大量实际和探索性的工作。结合所用合成算法,我们在语料设计中考虑了音节的韵律信息(超音段信息),音段信息等。对音段和超音段信息都进行比较详细的分类。对自然语言现象的覆盖就以我们制定的总信息表为依据。对大量的文本进行搜索,对每句话进行打分,打分标准综合考虑各种因素而制定,对得分满足条件的语句选入语料库;而在业界流行的Greedy算法方面,我们尝试了多种改进方法,按照我们现有的Greedy改进方法,不但可以在降低冗余度的同时提高自然语言覆盖水平,而且可以在很大程度上解决由于文本语句的处理顺序而导致的“不公正”性问题。
层次化与模块化的分步处理 “汉语是一种概念的堆砌”,事实上不仅仅是汉语,对任何一种自然语言,总是由一些比较小的语言单位逐步一层层的组合为更大的单位,表达特定的意义,而汉语这种层次累进的构成关系就更为明显。科大讯飞在语音合成系统的处理上采用了将不同级别的语言单位分别定义并予以分层次处理的方法,将一句文本的各层信息归结到一棵分析树,而整个处理的过程也就是不断扩展这棵树的过程。与其他仅进行单一或有限层处理的方法相比,这种方法能更自然准确的描述自然语言,同时更加易于处理和进一步的扩展。 层次化处理直接导致了模块化分步处理的思想,由于各个层次范围的预先确定,可以针对不同的层采用不同的算法,再根据层间的依赖关系按顺序进行各层的处理。所以我们为不同层的处理开发不同的模块,他们以独立二进制文件的形式存在,在总控环境下加载运行,中间的数据传递即为带处理的树。 这种思想带来的直接好处就是整个系统的可剪裁性与易维护性,可以根据不同的应用场合选择合适的算法模块,取得性能效率的一致;而且可以由不同的人开发不同的模块,使维护变得容易;同时易于做不同算法实现的性能对比测试;更重要的是,极大的提高了由研制状态转为应用状态的速度。
科学的文本韵律标注分层体系 文语转换系统如何获得高质量的自然语音,一方面取决于语音层处理如何由恰当的韵律知识和适当的生成算法(诸如波形拼接或参数合成)产生自然流畅的语音;另一方面取决于对目标语言自身的了解,包括具体环境下特定文本的内部语法结构,韵律层结构以及拼音声调和缓急轻重等相应信息。后者,就是文本分析,它的输出直接影响合成语音的质量。 科大讯飞在不断探索过程中,建立了一套科学的文本韵律标注分层体系,创新地提出汉语文本处理中的层次化信息结构思想,按音节层、节奏层、次短语、主短语到呼吸群、句子层共分成6层,较好地兼顾了语音和语法两个层面。融合规则和统计方法,创造性地以二叉树的结构形式按不同层次将信息提供给后端语音合成,使得汉语文语转换系统的整体性能有很大提高。 |