从“看”时代转向“听”时代——文字转语音软件小解

CFan 电脑爱好者 2019-01-26 09:00产品 标签:语音 文字 软件

说到文字转语音TTS(Text To Speech),它虽然没有语音识别热门,但也应该算是语音识别技术,乃至AI技术的一个实用领域。在生活的很多场景中我们都会遇到不方便用眼阅读的情况,无论是身处颠簸的公交车还是自己开车,无论是晨跑锻炼的时候还是晚上熄灯睡觉的时候,我们都不方便“看”,眼花的老年人或一些视力障碍人士,更是需要机器来辅助阅读文本。在这些情况下,用耳朵“听”就成为我们日益增长的需求。喜马拉雅FM、蜻蜓FM等有声电台能够在移动互联网时代异军突起就是很好的证明。

22-hdz-wzyy-00

我们这个时代不仅是一个越来越需要“听”的时代,同时也是一个越来越追求个性化的时代。大家要听自己想听的内容,传统广播电台那些已经录制好的固定节目显然无法满足个性化的需求,更不要说一些特殊需求的人群可能需要阅读邮件、文件等内容了。在以前,想听自己喜欢的内容,成本还是比较高的,无论是故事还是新闻,都需要有专门的播音员演播,人力成本很高。我们在音频平台上总是只能找到比较热门的小说与故事,对于个性化的内容,追求流量的平台依然无法满足我们。

好在随着语音识别技术的发展,这一切正在发生改变,也许“听”的时代已经离我们不再遥远。

○系统级应用

文字转语音的功能,最早研制出来是为了服务于残障人士。早年的朗读功能只能朗读简单的单词,比如为用户朗读标题栏菜单与鼠标右键菜单等等。随着操作系统的更新,系统自带的朗读功能越来越强大。现在,无论是Windows系统还是iOS系统,其自带的朗读功能就已经可以为我们朗读完整的文章了。此外在这两个系统以及Android系统中,也有一些可以支持整个系统的语音合成应用。

●Windows/iOS:系统自带朗读功能

在Windows10里,打开开始菜单旁的搜索按钮,输入“讲述人”或在控制面板中打开“讲述人”功能就可以让其朗读记事本上的文本了。

22-hdz-wzyy-01

“讲述人”功能界面,系统会朗读蓝色方框圈起来的区域

在“苹果”系统中,朗读的功能被设计得更为通用。如果我们使用的是iPhone手机,我们可以通过“设置-通用-辅助功能-语音-朗读屏幕”的途径打开手机的“朗读”功能。

22-hdz-wzyy-02

苹果手机中,我们可以通过“设置-通用-辅助功能-语音-朗读屏幕”找到朗读功能

屏幕上会出现“朗读”的悬浮窗口,我们可以打开任意我们想让系统朗读的文本,然后点击朗读。窗口左右的按钮可以调整朗读的速度。如果我们不需要系统朗读所有内容,我们也可以只选择指定的文字,然后在操作菜单中选择“朗读”,这样系统就只会朗读我们选中的那部分内容了。

22-hdz-wzyy-03

在朗诵控制板中可以调整语速,乌龟与兔子的标志可以说很形象了

结合Safari浏览器,我们可以实现更方便的朗读管理。Safari可以管理朗读列表,我们可以打开多个网页,然后将内容“添加到朗读列表”之中。这样我们就可以事先安排好想听的内容,然后像听歌一样,让系统读完一篇文章内容之后,继续朗读下一篇我们所选中的文章。

22-hdz-wzyy-04

把文章“加入阅读列表”后我们就可以让safari连续朗读列表网页的内容了

“苹果”系统还将朗读作为接口提供给第三方的软件调用。比如知乎(仅旧版支持)、印象笔记等软件的iOS版都有相关接口,我们可以在软件中直接选择“分享-添加到朗读列表”,将APP中的文字添加到系统的朗读列表中,就可以实现朗读的功能。

22-hdz-wzyy-05

●Android:讯飞语记+懒人听书

相比于“苹果”系统在不同硬件上的通用性,Android系统在语音朗读方面的体验就比较支离破碎了。由于各家硬件厂商对Android系统都进行了深度改造,导致Android手机上并没有统一的语音朗读功能可供调用。我们想在这些设备上实现语音朗读,只能依靠第三方APP。

现在Android应用市场里有很多所谓的“语音朗读”类APP,包括一些电子书阅读软件也支持朗读功能。不过,这些APP并不像“苹果”系统那样有现成的语音包可供调用,要想使用它们的朗读功能往往要依赖基于第三方的语音包。

我们就以“讯飞语记”结合“懒人听书”实现朗读功能来举例。其中,讯飞语记主要提供朗读的语音包,而懒人听书主要是提供小说等版权文字内容。

首先我们安装好两个APP,然后打开讯飞语记,注意不要让系统在后台将该APP进程杀死,否则无法实现朗读。之后打开懒人听书APP,选择你想听的小说,在小说页面中会看到一个耳机图标,点击耳机图标就会调取讯飞语记的朗读功能,实现小说朗读了。讯飞语记的朗读控制功能与“苹果”类似,我们可以调整朗读的速度以及音量大小。

22-hdz-wzyy-06

讯飞语记朗读控制界面

此外,借助讯飞在语音识别方面的能力,它还提供了很强大的语音输入功能。我们前面提到的一些语音合成用户,如驾驶员、视力障碍者等,也恰好需要语音输入,因此这一软件是很符合这些用户需求的。不过讯飞语记免费版在语音输入时间等方面有一定限制,在这方面要求较高的用户需要够买VIP账户。

22-hdz-wzyy-07

通过以上的例子,大家可以举一反三,灵活组合出自己的“朗读者”。一是要准备好朗读软件与语音包,二是准备好要朗读的内容。由于语音包和小说等文字内容各有各的版权,语音合成的朗读内容版权无法界定,现在Android系统上并没有比较完美地把朗读与内容结合的软件,想在Android端自由地“听”还是有些麻烦。

○微信辅助软件

对喜欢阅读微信公众号的朋友来说,语音转换遇到的麻烦也不必Android系统小。由于版权导致许多独立APP不能提取公众号文章,因此必须求助于微信小程序。微信小程序最大的便捷之处就是不用下载APP就可以实现各种功能,而且可以提供对微信公众号文章的良好支持。文字转语音功能虽然小众,但也有不少小程序推出了该功能,这里重点推荐两个小程序。

○飞鸟听听

飞鸟听听是比较早就开始支持语音朗读的小程序。我们只要在它的首页输入公众号的名称,将公众号加入订阅,该小程序就能为我们朗读公众号中的文章。拓展的功能包括加入听单列表,下载语音文件以及分享等等。在小程序主界面。我们还可以直接收听由小程序精选的文章,进而关注相关的公众号。

22-hdz-wzyy-08

在飞鸟听听中我们可以选择听它推荐的文章,也可以自己输入地址

如果我们对小程序推荐的公众号都不感兴趣,只想临时收听某篇公众号的文章,那么我们只要将公众号的文章地址复制到小程序的搜索栏,然后点击“开始朗读”,程序就会开始自动识别。除了公众号之外,该小程序还支持提取知乎与今日头条的文章,并且有男女声可选,可以说很贴心了。

22-hdz-wzyy-09

此外,该小程序还支持同时添加多条内容进入听单,然后按顺序播放。但在Android 7.0系统下,该功能并不能够按小程序教程所描述的那样正常使用,还会出现不断重复播放的问题,关于这一点还有待小程序开发商的优化。

22-hdz-wzyy-10

●讯飞快读

讯飞快读是科大讯飞在微信上推出的官方小程序,功能很强大。此前微信上有不少使用讯飞语音包的“山寨朗读小程序”,在讯飞官方小程序上线之后,山寨小程序就陆续下线了。

22-hdz-wzyy-11

讯飞快读可以实现与飞鸟听听一样的功能,包括识别微信公众号地址、添加公众号等功能。它与前者最大的不同是其拥有多样化的语音包可供选择。我们可以自由选择喜欢的播音员声音,并自由调节语速,还可添加背景音乐。就使用体验来说,讯飞在人声郎读的优化方面处理得还是比较到位的,包括对多音字的处理、对年月日的处理等等,识别率还是比较高的。其整体的语音听起来也更接近自然人声。问题是,讯飞的小程序与它的APP一样,只有少数几个语音包是免费使用的,大部分需要用户付费购买才能使用。

22-hdz-wzyy-12

在讯飞快读的播音员页有多种声音可供选择,但大部分需要付费

此外,可能是为了保护版权,讯飞的语音朗读过程需要全程联网,如果文章朗读到一半就断网,我们就无法收听接下来的内容,更别提建立朗读列表或下载语音文件了。这点是讯飞比较影响用户体验的地方,而且是官方有意为之,用户不付费恐怕难以改善体验。

其实,上述软件或软件的出品厂商,也大都提供了PC端的解决方案,由于移动端和PC端在技术上的共通性,性能没有太大差别,这里就不一一赘述了。此外我们也可以发现,其实最为实用化的语音合成技术是掌控在少数几家厂商手中的,很多应用并不掌握核心技术,技术合作到期后,很可能无法继续服务,如果准备长期使用,那么最好选择讯飞等几家厂商的软件应用。

总之,文字转语音并不是一个神秘的技术,它早已经解决了用户“听懂”的问题,未来要解决的是如何让语音更接近真人朗读,如何让用户听得更舒服的问题。相信随着人工智能的发展,电子合成的语音朗读将会越来越接近自然语音,甚至在一些领域代替真人播音。虽然现在我们还无法享受到与真人匹敌的语音朗读,但对于通勤路上的朋友来说,在无法用眼的时候用耳朵听一听这些合成声音,也是一种能够解决当务之急的灵活应用了。当然,要想用好这些软件和应用,硬件方面的需求也是要考虑的。

○选好外设 收听真切的声音

在使用文本转语音工具的时候,当然可以直接通过数码设备的外放或PC上已有的各种声音播放设备,但要将其作为一种生活方式的话,最好还是添置一台适合语音播放的外设。

配合语音合成应用,选择音箱或耳机要注意的一点就是不能“炫富”,如无其他需要,不建议购买目前比较火的、以多声道表现为设计重点的电竞级耳机,或者更重视高低音效果的中高端音乐耳机,以及多声道音箱或中高端音乐音箱。

在多声道解决方案中,有不少都会通过软件方式将某些声道的信号分拆给其他声道,以造成一种“伪”多声道。

22-hdz-wzyy-13

对多声道系统来说,语音使用的一般也只有前置音箱,其他音箱不仅浪费,还有可能造成干扰

这一点在欣赏音乐、影视作品或者玩游戏的时候会带来比较好的使用体验,但有可能造成混响等有碍于语音清晰播放的情况。在偏向于音乐欣赏的耳机和音箱设计中,有相当部分会增加额外的重音以提升感染力,但这样会使中音段的人声变得有些浑浊。

22-hdz-wzyy-14

“突出”震撼效果的播放设备,常常会自行增加额外的重音效果

那么,什么样的播放设备更值得考虑呢?首先是以音质为卖点,但并不是强调震撼效果或者支持多少个声道的,而是偏向于强调音频分离能力、中频表现能力和减少失真的产品。对于喜欢使用耳机的用户,还应该考虑长时间佩戴的舒适性。

22-hdz-wzyy-15

双音腔等耳机设计,相对来讲比较适合语音合成与重现

此外,对于使用数码产品的用户,个人更偏向于采用蓝牙设备,这样在使用中会增加更多的趣味性,例如可以在充电的同时做家务,只要佩戴蓝牙耳机或携带蓝牙音箱,就仍然可以随时享受“听小说”的乐趣。此外在餐厅等公共场合、通勤道路上,以及工作的时候,使用无线耳机也可以更方便地享受语音合成技术带来的乐趣,并且不会打扰到别人。

○常见问题 这样解决

在语音合成的应用中也难免会遇到一些问题,如无法更换发言人、无法识别合成等,可能会让刚刚开始“玩”语音合成的用户感到非常困扰,其实很多时候,这些问题是很容易解决的。

●更换发言人

由于生活习惯不同,每个人喜欢的语音也有一定差别,因此很多语音合成应用都提供了多种语音可选,一般在设置里选择新的发言人,下载音源库即可。如果未能正常更换,首先可以注意是否在下载后并未自动替换,需要在其他设置页面中,选择本机已有的音源合成。其次由于目前很多应用实际上是一种网络服务,因此低版本中是可以看到一些高版本提供的功能,如新增音源的,但低版本不一定能使用这些新音源,此时注意及时更新应用版本即可。

●无法识别合成

首先我们应该确认文件或应用的兼容性,如Word文件等不要使用最新版本,如有条件最好转化成几乎没有版本差别的TXT纯文本文件。然后需要考虑语音合成软件的完整性,特别是在PC上使用时,一些核心文件可能因为共用而在调整/卸载其他软件如语音输入软件的时候被替换或删除,那么就可以考虑重装相应软件,或者根据错误提示下载相应的核心文件并放置在对应位置。

●离线无法使用

语音合成与语音识别一样,需要比较复杂的运算和庞大数据才能很好地工作,但有时我们因为流量问题或使用场所问题,必须断网使用。此时除了寻找支持离线使用的应用外,还可以在应用设置中查找是否有相应选项,其中有些可能有下载数据库或者降低精度等选项,大家可以根据自己设备的容量情况和实际需求酌情选择。

在简单了解和配置后,日臻成熟的语音合成技术已经能带给我们很多非常有趣又实用的体验了。不管是因为身体原因、生活习惯的刚性需求,还是仅仅喜欢尝试新科技,笔者都建议大家去尝试一下,也许试过之后就离不开了呢。