网络百科新概念
提示
 正文中的蓝色文字是词条,点击蓝色文字可进入该词条页面;
 正文中的红色文字是尚待创建的词条,点击红色文字可进入创建词条页面;
 欢迎参与词条创建或编辑修改!人人为我,我为人人。共同建设中文百科在线,共创知识文明!
zwbkorg
关注微信,获取更多信息
阅读 9281 次 历史版本 3个 创建者:hk007 (2009/12/25 17:13:18)  最新编辑:蓝色妖姬 (2010/11/16 5:27:02)
语音合成
拼音:yǔ yīn hé chéng
英文:Speech Synthesis
  语音合成(Speech Synthesis)就是人工合成人类的声音。合成声音的系统被称作“语音合成器”(Speech Synthesizer)。这种系统可以主要由件实现,也可以主要由软件实现。语音合成技术的学名是“文语转换系统”,也常常被称作TTS(text to speech)技术,是指将文本信息转变为语音数据,以语音的方式播放出来的技术即文本转语音。该项技术的目的就是让计算机文字“读”出来,其追求的目标是计算机“读”出的声音清晰、可懂、自然、具有表现力。

  语音合成涉及声学语言学数字信号处理计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术。语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中,早期的研究主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方法。

  1930年,贝尔实验室开发了声音编码器。这是一个用键盘操作的电子语音分析器和合成器。第一个基于计算机的语音合成系统在50年代后期诞生,第一个完整的TTS语音合成系统在1968年完成。从那时起至今,语音合成技术经历了各种各样的技术改进。

  中国汉语语音合成研究起步较晚,上世纪八十年代初期,国内中文语音合成研究基本与国际上研究同步发展。大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程。在国家863计划、国家自然科学基金委、国家攻关计划、中国科学院有关项目等支持下,汉语文语转换系统研究近年来取得了令人举目的进展。

  近些年,一种新的基于数据库的语音合成方法得到了更广泛的应用。在这个方法中,合成语句的语音单元是从一个预先录下的语音数据库中挑选出来的,不难想象只要语音数据库足够大,包括了各种可能语境下的语音单元,理论上讲就有可能拼接出任何语句。由于合成的语音基元都是来自自然的原始发音,合成语句的清晰度和自然度都将会非常高。

语音合成技术的原理


  当前,语音合成的研究已经进入文字-语音转换(TTS)阶段,其功能模块可分为文本分析、韵律建模和语音合成三大模块。其中,语音合成是TTS系统中最基本、最重要的模块。概括起来说,语音合成的主要功能是:根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。

  语音合成技术经历了一个逐步发展的过程,从参数合成到拼接合成,再到两者的逐步结合,其不断发展的动力是人们认知水平和需求的提高。目前,常用的语音合成技术主要有:共振峰合成、LPC合成、PSOLA拼接合成和LMA声道模型技术。它们各有优缺点,人们在应用过程中往往将多种技术有机地结合在一起,或将一种技术的优点运用到另一种技术上,以克服另一种技术的不足。

共振峰合成


  语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。在图1所示的某一语音的频率响应图中,标有Fp1、Fp2、Fp3……处为频率响应的极点,此时,声道的传输频率响应有极大值。习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色。

  音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型。



  1.级联型共振峰模型 在该模型中,声道被认为是一组串联的二阶谐振器。该模型主要用于绝大部分元音的合成。

  2.并联型共振峰模型 许多研究者认为,对于鼻化元音等非一般元音以及大部分辅音,上述级联型模型不能很好地加以描述和模拟,因此,构筑和产生了并联型共振峰模型。

  3.混合型共振峰模型 在级联型共振峰合成模型中,共振峰滤波器首尾相接;而在并联型模型中,输入信号先分别通过幅度调节再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。将两者比较,对于合成声源位于声道末端的语音(大多数的元音),级联型合乎语音产生的声学理论,并且无需为每一个滤波器分设幅度调节;而对于合成声源位于声道中间的语音(大多数清擦音和塞音),并联型则比较合适,但是其幅度调节很复杂。基于此种考虑,人们将两者结合在一起,提出了混和型共振峰模型,如图2所示。



  事实上,上述三种共振峰模型在实际中都得到了成功的应用。例如:Fant的OVE系统就采用了级联型的共振峰模型;Holmes合成器采用的是并联型的共振峰模型;而最为典型也是最为成功的Klatt合成器则构筑在混合型共振峰模型的基础之上。

  在汉语语音合成方面,研究人员研制出了一些基于共振峰模型的成功的应用系统。如社科院语言所的SIFS合成器、中科院声学所的KX1系统中基于Holmes的并联型共振峰合成器模型,而同样由中科院声学所开发的第二代共振峰合成器KXFSS则基于Klatt合成器。

  共振峰模型是基于对声道的一种比较准确的模拟,因而可以合成出自然度比较高的语音,另外由于共振峰参数有着明确的物理意义,直接对应于声道参数,因此,可以容易利用共振峰描述自然语流中的各种现象,并且总结声学规则,最终用于共振峰合成系统。

  但是,人们同时也发现该技术有明显的弱点。首先由于它是建立在对声道的模拟上,因此,对于声道模型的不精确势必会影响其合成质量。另外,实际工作表明,共振峰模型虽然描述了语音中最基本最主要的部分,但并不能表征影响语音自然度的其他许多细微的语音成分,从而影响了合成语音的自然度。另外,共振峰合成器控制十分复杂,对于一个好的合成器来说,其控制参数往往达到几十个,实现起来十分困难。

  基于这些原因,研究者继续寻求和发现其他新的合成技术。人们从波形的直接录制和播放得到启发,提出了基于波形拼接的合成技术,LPC合成技术和PSOLA合成技术是其中的代表。与共振峰合成技术不同,波形拼接合成是基于对录制的合成基元的波形进行拼接,而不是基于对发声过程的模拟。

LPC参数合成


  波形拼接技术的发展与语音的编、解码技术的发展密不可分,其中LPC技术(线性预测编码技术)的发展对波形拼接技术产生了巨大的影响。

  LPC合成技术本质上是一种时间波形的编码技术,目的是为了降低时间域信号的传输速率。

  对于利用LPC合成技术来进行汉语语音合成和汉语文语转换的研究,中科院声学所在这方面做了大量的工作。1987年,他们引进了多脉冲激励LPC技术,1989年又引入矢量量化,之后,1993年,他们引入码激励技术,他们的这些工作对于LPC合成技术在汉语合成方面的运用做出了重要的贡献。

  LPC合成技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。另外,由于波形拼接技术的合成基元是语音的波形数据,保存了语音的全部信息,因而对于单个合成基元来说能够获得很高的自然度。

  但是,由于自然语流中的语音和孤立状况下的语音有着极大的区别,如果只是简单地把各个孤立的语音生硬地拼接在一起,其整个语流的质量势必是不太理想的。而LPC技术从本质上来说只是一种录音+重放,对于合成整个连续语流LPC合成技术的效果是不理想的。因此,LPC合成技术必须和其他技术相结合,才能明显改善LPC合成的质量。

  一种典型的基于单音节和VQLPC(矢量量化的LPC)技术的文语转换系统原理图如图3所示。



PSOLA合成技术


  20世纪80年代末提出的PSOLA合成技术(基音同步叠加技术)给波形拼接合成技术注入了新的活力。PSOLA技术着眼于对语音信号超时段特征的控制,如基频、时长、音强等的控制。而这些参数对于语音的韵律控制以及修改是至关重要的,因此,PSOLA技术比LPC技术具有可修改性更强的优点,可以合成出高自然度的语音。

  PSOLA技术的主要特点是:在拼接语音波形片断之前,首先根据上下文的要求,用PSOLA算法对拼接单元的韵律特征进行调整,使合成波形既保持了原始发音的主要音段特征,又能使拼接单元的韵律特征符合上下文的要求,从而获得很高的清晰度和自然度。

  如何将PSOLA技术应用于汉语文语转换系统,国内许多学校和科研单位对此进行了大量广泛深入的研究。清华大学、北方交大、中科院声学所等在对PSOLA技术研究的基础上,先后开发出了基于波形拼接的汉语文语转换系统,并且对于如何进一步完善该技术,如何进一步改善合成语音的自然度等都提出了一些具体措施。

  PSOLA技术保持了传统波形拼接技术的优点,简单直观,运算量小,而且还能方便地控制语音信号的韵律参数,具有合成自然连续语流的条件,得到了广泛的应用。

  但是,PSOLA技术也有其缺点。首先,PSOLA技术是一种基音同步的语音分析/合成技术,首先需要准确的基因周期以及对其起始点的判定。基音周期或其起始点的判定误差将会影响PSOLA技术的效果。其次,PSOLA技术是一种简单的波形映射拼接合成,这种拼接是否能够保持平稳过渡以及它对频域参数有什么影响等并没有得到解决,因此,在合成时会产生不理想的结果。

LMA声道模型


  随着人们对语音合成的自然度和音质的要求越来越高,PSOLA算法表现出对韵律参数调整能力较弱和难以处理协同发音的缺陷,因此,人们又提出了一种基于LMA声道模型的语音合成方法。这种方法具有传统的参数合成可以灵活调节韵律参数的优点,同时又具有比PSOLA算法更高的合成音质。

  目前,主要的语音合成技术是共振峰合成技术和基于PSOLA算法的波形拼接合成技术。这两种技术各有所长,共振峰技术比较成熟,有大量的研究成果可以利用,而PSOLA技术则是比较新的技术,具有良好的发展前景。

  过去这两种技术基本上是互相独立发展的,现在许多学者开始研究它们两者之间的关系,试图将两者有效地结合起来,从而合成出更加自然的语流。例如清华大学的研究人员进行了将共振峰修改技术应用于PSOLA算法的研究,并用于Sonic系统的改进,研制出了具有更高自然度的汉语文语转换系统。

语音合成的发展方向


1.提高合成语音的自然度


  提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。

  基于语音数据库的语音合成方法有望进一步提高语音合成的自然度。 因为这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的,因此有可能最大限度地保留语音的自然度。但由此产生了一系列新的需要研究的问题,包括:如何确定语音合成的基元,根据什么准则去挑选合适的基元;韵律参数定量化问题,对数据库进行定标问题;以及如何将统计的方法和规则方法相结合使机器能自动发现和找出所需的语音单元,保证最高的合成语句自然度等等。

  无论用哪种合成方法,韵律规则的总结,特别是连续语音的韵律规则总结,尽可能将定性的规则描述定量化,对自然度始终有最重要的影响。还有前端文本处理, 对合成语音的自然度也具有举足轻重的影响, 完整全面的解决, 需要自然语言理解的突破。

2.丰富合成语音的表现力


  目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。随着信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上。即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。这不仅对语音合成技术提出了更高的要求,而且涉及到计算机语言生成,涉及人类大脑的高级神经活动。但就语音合成来说,仍是一个要丰富合成语音的表现力问题。相对来说采用波形拼接方法来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限。更为有效的办法是采用参数合成法,分析参数特征,通过对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的变化,由于这种改变是连续的,对象特征可以千千万万,显得更有生命力。近年来提出的基于LMA(对数振幅近似)技术的语音合成器,Hybrid Harmonic/Stochastic 模型 , Sinusoidal 模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法,为此应继续深入这方面的研究,以期在参数合成技术上取得突破。

3.降低语音合成技术的复杂度


  语音合成技术正在走向市场。为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方。就目前汉语文语转换系统而言,减小音库容量就是一个重要课题。目前高质量的汉语文语转换系统一般需要几兆字节到几十兆,甚至几百兆字节的存储容量,这在以PC机或工作站为硬件平台的应用中是没有问题的,而对于象HPC, PDA及无线通信手机,商务通等资源有限的设备上就没法承受。解决的方法可以是通过语音压缩编码的方法来压缩音库所需的容量,或者采用更小的合成基元,例如用声母、韵母或双音素、半音节, 以及减少合成语音所需的音节基元数等等。然而又不能增加算法的复杂度,因为运算量及系统开销同样会直接影响汉语语音合成的应用。既要提高语音合成的质量,又要降低语音合成的复杂度,这始终是一个矛盾的两个方面。

4.多语种文语合成


  语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值。例如在自动电话翻译,有声的电子邮件等中都提出多语种的合成,即使是对汉语合成也有多方言文语转换的需求。理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,所采用的算法及规则都是和某种语言密切相关的,因此很难推广到其他的语种。例如汉语就和西方语言有很大的差异,国内的系统都是做汉语文语转换,它的一套韵律控制规则完全不适合于英语,而且主要是合成汉语普通话,即使推广到广东话和上海话都有相当的难度。可见要真正解决多语种的文语合成,从文本处理到语音合成都必须有新的思路。美国贝尔实验室在多语种文语转换方面作了大量的工作,其中包括汉语普通话合成,值得注意。

    5
    0
    申明:1.中文百科在线的词条资料来自网友(一些人是某学科领域的专家)贡献,供您查阅参考。一些和您切身相关的具体问题(特别是健康、经济、法律相关问题),出于审慎起见,建议咨询专业人士以获得更有针对性的答案。2.中文百科的词条(含所附图片)系由网友上传,如果涉嫌侵权,请与客服联系,我们将及时给予删除。3.如需转载本页面内容,请注明来源于www.zwbk.org

    词条保护申请

  • * 如果用户不希望该词条被修改,可以申请词条保护
    * 管理员审核通过后,该词条会被设为不能修改

    注意:只有该词条的创建者才能申请词条保护

    评论评论内容为网友展开的讨论,与本站观点立场无关[去知识社区发起新话题]

  • 183.178.113.*在 2011/2/11 11:42:18 发表
  • 评论内容为网友展开的讨论,与本站观点立场无关
  • 更多评论
联系我们意见反馈帮助中心免责声明
Copyright © 2010 zwbk.org 中文百科在线 All rights reserved.京ICP证090285号