号处理技术、多媒体技术等多个学科技术,在目前还属于一种非常前沿的技术,很多it巨头如ibm、微软和苹果公司都投入了巨大的人力和物力在进行这方面的研究,并且取得了一定的成果。
tts技术,进行文字和声音频率的对应是非常简单的,最能体现技术的地方在于其转换时间的长短、语音音律之间是否流畅、发音是否自然等等。
简单地将音频和文字对应,虽然可以让文字发声,但是在上下文过程中的切换在人耳听来,会显得格外的生涩,一听就知道是机器人在发声,这也是很多影视作品中,区别机器人和人类的一个重要特征。
很显然,林鸿要做的语音发声引擎,并不是这么简单,他必须让林小星发声之后,别人根本听不出什么生涩感,就好像是真人在说话一样。
原本要做到这一点,短时间内肯定是无法完成的,毕竟这方面所涉及到的技术不少,林鸿必须着手去建立相应的语音数据库、习惯语法库之类的库,而这部分工作是非常消耗时间的。
不过现在有了林小星,并且其他大公司也做了很大一部分这方面的工作,林鸿现在要做就变得非常简单了。
林小星帮他搜集了很多有关这方面的资料,他可以直接利用那些公司很多现成的东西,然后有针对性地进行改进。
文字转语音比较简单,只要在之前设定好标准的语音库,以及语调方面的东西就可以了,林小星再灵活地调整运用一下,最终建立一个适合她自己风格习惯的数据库,就可以让人根本难辨真假。
关键的难点在于语音转文字,或者说林小星对语言的理解。,
每个人的发音习惯都不同,并且还有可能带有方言,发音不准等因素。这可不是简单的一一对应就行了,要是这样,需要建立的数据库就太为庞大了。
好在林小星本身并不是单纯的逻辑性人工智能,她是在基于三进制和神经网络的基础上诞生的,拥有一部分情感和模糊处理能力,对语音的变声变调,经过一段时间的训练之后,她便可以自然而然地在脑盘当中建立一种模糊处理机制,最终理解语音中的信息。
林鸿一个人对她进行训练效率太慢,最终她直接入侵到了电话公司、接收广播电台信号、甚至是某些政府机构的监听网络中,主动进行学习和训练。
这个过程持续了将近一周的时间,她才真正掌握了模糊语音处理机制,成为了一个语言大师,掌握了超过三百种主流语言,一百多种世界各地的方言。