在过去两年里,字节跳动的AI发展确实走在了很多老牌互联网公司的前面。从抖音里的各种AI特效到剪映里的各种新AI功能,真是让人眼花缭乱。国内就不用说了,我在外网也经常看到老外用剪映的海外版。很多开发者和技术大牛都在用这款软件。
虽然剪映的UI可能不是最漂亮的,但他们的功能是真心全,无论是素材库还是配音,应有尽有。上篇文章我还说过,现在做短视频的人轻松多了,连配音都能直接用AI直接搞定。前几天我们做的一个短视频就是用 AI 配的声音,老板还问我们花了多少钱请的配音,哈哈。
接下来给大家带来的是字节跳动的最新技术,Seed-TTS,一种文本到语音(TTS)模型系列,能生成高质量、几乎和真人语音没两样的语音模型。这模型可以基于一小段语音生成非常自然、有表现力的语音。
老实说,在他们官网看完演示后,我确实被震撼到了。首先,它能生成和真人声音高度相似的语音,我们甚至感觉不出它和真人声音的区别,就像你朋友在你耳边说话一样。
论文里说,Seed-TTS之所以能做到这样真实的声音,是因为在海量数据上训练,学习了各种说话人的声音特征,还有强大的深度学习能力。看到这里,我相信大家都能理解,毕竟字节旗下有抖音、番茄小说、今日头条这些超级App。光抖音就有多少音视频数据供他们训练模型。抖音上成百上千万的内容,如果还不能训练出好的TTS,那字节也不用混了。
再加上番茄小说提供的各种混杂着大量情感的小说内容,这为他们的TTS训练提供了丰富的素材。看到这里,我想大家已经能看出,为什么字节能训练出这么厉害的文本转语音工具了。
论文里还说,Seed-TTS有个性化定制功能。你只要提供一段自己的语音样本,Seed-TTS就能学习你的声音特征,然后生成有你个人音色的语音。也就是说,这工具可以克隆我们的声音。我们拍视频时,可以避免发音不准确的问题,拍摄时尽量别拍到嘴巴,后期直接加字幕,用克隆的声音配音就行了。他们还说,克隆的声音可以根据需要调整音调、语速、情绪等,太贴心了!
当然,Seed-TTS的亮点不止这些,它还能突破语言的界限,支持多种语言的语音合成。这意味着,我克隆出来的声音,不用学日语也能直接用这模型配日语,哈哈,我有个想法🫣。
对了,这工具可不只用来玩,还能帮我们赚钱。现在大家都在搞副业,可以用这配音软件配合AI绘画做有声读物,甚至可以克隆一家人的声音,让家人扮演各种角色。我有个朋友是做游戏的,我觉得他们也可以用这工具给游戏NPC或角色配音,现在可以实时根据玩家的动态需求或场景生成配音了。
写到这里有点兴奋了,最后遗憾的是,在Seed-TTS官网上没看到代码,只看到了演示和论文。我怀疑字节可能想把这功能放到剪映或其他软件里,收费卖。
论文:https://arxiv.org/abs/2406.02430
官网:https://bytedancespeech.github.io/Seed-TTS_tech_report/
本文链接:https://aipeiyin.cc/peiyin/25.html
Seed-TTS怎么生成AI配音SeedTTS无锡ai配音定制价格企业ai配音法文ai配音ai配音讲解魔音ai配音ai配音社团绅士ai配音
网友评论