字节跳动Seed-TTS：分不清是真人还是AI的语音技术

AI配音网2024-06-06 09:12:58309

在过去两年里，字节跳动的AI发展确实走在了很多老牌互联网公司的前面。从抖音里的各种AI特效到剪映里的各种新AI功能，真是让人眼花缭乱。国内就不用说了，我在外网也经常看到老外用剪映的海外版。很多开发者和技术大牛都在用这款软件。

虽然剪映的UI可能不是最漂亮的，但他们的功能是真心全，无论是素材库还是配音，应有尽有。上篇文章我还说过，现在做短视频的人轻松多了，连配音都能直接用AI直接搞定。前几天我们做的一个短视频就是用 AI 配的声音，老板还问我们花了多少钱请的配音，哈哈。

接下来给大家带来的是字节跳动的最新技术，Seed-TTS，一种文本到语音（TTS）模型系列，能生成高质量、几乎和真人语音没两样的语音模型。这模型可以基于一小段语音生成非常自然、有表现力的语音。

老实说，在他们官网看完演示后，我确实被震撼到了。首先，它能生成和真人声音高度相似的语音，我们甚至感觉不出它和真人声音的区别，就像你朋友在你耳边说话一样。

论文里说，Seed-TTS之所以能做到这样真实的声音，是因为在海量数据上训练，学习了各种说话人的声音特征，还有强大的深度学习能力。看到这里，我相信大家都能理解，毕竟字节旗下有抖音、番茄小说、今日头条这些超级App。光抖音就有多少音视频数据供他们训练模型。抖音上成百上千万的内容，如果还不能训练出好的TTS，那字节也不用混了。

再加上番茄小说提供的各种混杂着大量情感的小说内容，这为他们的TTS训练提供了丰富的素材。看到这里，我想大家已经能看出，为什么字节能训练出这么厉害的文本转语音工具了。

论文里还说，Seed-TTS有个性化定制功能。你只要提供一段自己的语音样本，Seed-TTS就能学习你的声音特征，然后生成有你个人音色的语音。也就是说，这工具可以克隆我们的声音。我们拍视频时，可以避免发音不准确的问题，拍摄时尽量别拍到嘴巴，后期直接加字幕，用克隆的声音配音就行了。他们还说，克隆的声音可以根据需要调整音调、语速、情绪等，太贴心了！

当然，Seed-TTS的亮点不止这些，它还能突破语言的界限，支持多种语言的语音合成。这意味着，我克隆出来的声音，不用学日语也能直接用这模型配日语，哈哈，我有个想法🫣。

对了，这工具可不只用来玩，还能帮我们赚钱。现在大家都在搞副业，可以用这配音软件配合AI绘画做有声读物，甚至可以克隆一家人的声音，让家人扮演各种角色。我有个朋友是做游戏的，我觉得他们也可以用这工具给游戏NPC或角色配音，现在可以实时根据玩家的动态需求或场景生成配音了。

写到这里有点兴奋了，最后遗憾的是，在Seed-TTS官网上没看到代码，只看到了演示和论文。我怀疑字节可能想把这功能放到剪映或其他软件里，收费卖。

论文：https://arxiv.org/abs/2406.02430
官网：https://bytedancespeech.github.io/Seed-TTS_tech_report/

本文链接：https://aipeiyin.cc/peiyin/25.html

Seed-TTS 怎么生成AI配音 SeedTTS 无锡ai配音定制价格企业ai配音法文ai配音 ai配音讲解魔音ai配音 ai配音社团绅士ai配音

字节跳动Seed-TTS：分不清是真人还是AI的语音技术

相关文章

如何利用AI技术进行游戏配音，AI配音教程全面解析

AI配音真的智能吗？一文带你深入了解AI配音技术

AI配音与真人配音，它们有什么区别？

AI配音神器如何让你的声音更具魅力？

AI配音技术如何在香港配音领域大放异彩？

AI配音在Vlog制作中的应用，它是如何改变内容创作的？

AI配音和情感配音有什么区别？一文让你了解！

AI配音鱼如何改变你的配音体验？

网友评论