换句话说,播音员们尽量用口语表达,减少表达内容的理解和反应的难度。 这种通俗易懂的优点使音频故事越来越流行,相关的调查数据也证明了这一发展趋势。
根据Statista公布的统计结果,2018年美国播客听众达到了7500万人。 到2024年,月收听用户预计将增加到1.64亿人。 由此推测,2019年至2023年期间播客听众的复合年增长率将达到17%。
2020年,四分之三的美国人明确知道播客是什么,其中半数以上(55% )开始听播客。 作为世界上收入最高的播客,乔洛根的《乔罗根体验》 (The Joe Rogan Experience )节目于2019年获得5000万美元的销售额,每月下载近2亿次。
当前播客行业面临的主要问题是获得支持行业快速增长所需的资源,同时保持内容独立性。 最终利用主题——人工智能等划时代技术的语音克隆功能可能会带来重要的解决方案或至少一部分解决方案。
以尼克松(Nixon )项目为例,有说服力的结果证明AI技术可以完全再现与人类对象没有任何区别的声音效果。 麻省理工学院的研究人员、新闻工作者和艺术家小组与语音克隆商Respeecher和VDR公司的Canny AI合作,此次仅共同制作了模拟中获得的首次月球着陆通话记录——,宇航员
他们“伪造”了当时美国总统尼克松的录像,向全世界宣告了这次登月的悲惨失败。
播客遇到AI的时候
计算机化语音的主要挑战是如何复制人的表现和其中的各种微妙差异,同时尽最大努力避免机械声音的存在。 另外,在识别和再现细微声音的变化要素方面,基于人工智能的声音转换技术给我们指明了可行的发展道路。

苹果Sir、Amazon Alexa、Microsoftcortana、Google Assistant等语音助理使用了文本到语音的转换技术。 这项技术的实用性确实很高,但很难带来不同的语音类型。 以Siri为例,为了实现高龄男性的声音效果,除了需要导入庞大的预录音文件以外,Siri无法处理该声音文件中没有的单词。 在这一点上,AI支持的声音到声音的转换成为了新的突破口。如何将AI语音克隆应用于播客领域?
人工智能不仅可以实现语音克隆,还可以在任意播客节目中完美地复制所有的语音效果。 其中使用了经典的数字信号处理算法“智能鸡尾酒”,通过专用的深度生成建模技术——,内容制作者可以用最佳的声音解决迄今为止难以实现的录音效果
让我们看看播客制作领域中一些语音克隆技术的可行用例。
1 .让名人参加节目
我们很难让有名的演员、作家、运动员等参加节目,但如果用人工智能技术复制他们的声音,就能简单地实现同样的效果。 另外,你也不用烦他们自己去工作室。 以此为基础,听众可以听到自己喜欢的声音,节目制作者和名人也省去了辛苦。
2 .再现从前的声音
语音克隆可以再次向死去的演员们打招呼。 你不想让肯尼迪总统给历史播客加旁白吗? 没有问题。 语音转换技术能准确地再现他的语音——。 是的。 不仅仅是“相似”,也是真正完美的复原。
3 .用孩子的声音朗读。 没有必要强迫孩子们长时间工作。
孩子们的故事总是很有趣。 这种有趣不一定体现在内容上,也体现在他们的声音、语气和语调上。 但是,和孩子们一起工作很辛苦。 通过语音合成技术,可以让专业演员读孩子的台词,将其转换为童声效果,可以大幅度简化节目制作过程。
4 .迅速推进节目制作进度,保证播客及时播出
AI可以瞬间再现人声,而且可以在短时间内提供高品质的目标语音成果。
总结。
2017年,全球播客市场带来了2.2亿美元的广告收入,每年翻一番。 提高用户参与度是吸引潜在广告主的核心动力。 更重要的是,播客广告实际上非常有效,据调查,这样的广告具有接近90%的播放完成率。
另外,广告主希望为一些播客节目支付高达30美元的CPM (广告每千次的展示成本)。 光是这个数字可能没有概念,但Facebook上的每千次广告展示成本大约是6美元。
网络电视虽然很慢,但它代替了有线电视,播客和传统广播之间的关系看起来也一样。 另一方面,只从传统的广播类广告中,播客行业至少可以获得约200亿美元的收入。 正如我们在文章开头所述,播客节目可以吸引很多本来不听广播的群体,因此利润增加的期待可以说是光明的。