Seed-TTS 论文解读：不止是语音合成，更是语音编辑、跨语言交流的未来

AI配音网2024-06-07 22:06:20475

引言

最近，ChatTTS 日常对话生成语音模型引起了广泛关注。

https://github.com/2noise/ChatTTS

虽然大部分开发者推荐使用seed来固定音色，但实际测试多个方案生成长音频时，即便选择了固定音色的种子，生成的3分钟音频里音色还是会不断变化，并不完全一致。

下图是将 ChatTTS_colab 在 Github Codespaces 里生成的，由于速度较慢，因此更推荐在 Colab 里选择 T4 运行。

https://github.com/6drf21e/ChatTTS_colab

字节发布 Seed-TTS

字节跳动昨天发布了一款超级厉害的语音生成模型，叫做 Seed-TTS。演示里它生成的语音，自然度和表现力直接拉满，甚至可以以假乱真，跟真人说话没区别！

至于多好，口说无凭，强烈推荐你试听。

https://bytedancespeech.github.io/seedtts_tech_report/

论文图表解读

这个项目对应还有篇论文：Seed-TTS: A Family of High-Quality Versatile Speech Generation Models。今天就来解读下。

https://arxiv.org/pdf/2406.02430

上图展示了 Seed-TTS 语音合成模型的推理流程，它包含四个主要模块：

语音标记器（Speech Tokenizer）：
接收一段参考语音（Reference），将其转换成一系列离散的语音标记（Speech Tokens）。
这些语音标记可以理解为将语音信号分解成更小的单元，类似于将文本拆分成单词或字符。
自回归语言模型（Autoregressive Language Model）：
基于输入的文本标记（Text Tokens）和语音标记，生成目标语音的语音标记序列。
自回归模型的特点是，它会根据之前生成的标记来预测下一个标记，逐步生成完整的序列。
扩散变换器模型（Diffusion Transformer Model）：
接收语言模型生成的语音标记序列，将其转换成连续的语音表示。
扩散模型是一种生成模型，它通过逐步去除噪声的方式，从随机噪声中生成目标数据。
Seed-TTS 中的扩散模型采用了一种由粗到精的方式，逐步提升语音表示的细节和质量。
声码器（Acoustic Vocoder）：
接收扩散模型生成的语音表示，将其转换成最终的语音波形（Target）。
声码器负责将抽象的语音表示转换成可听的声音信号。

简单来说，Seed-TTS 的工作流程如下：

将参考语音和目标文本分别转换成语音标记和文本标记。
语言模型根据文本标记和参考语音的语音标记，生成目标语音的语音标记序列。
扩散模型将语音标记序列转换成连续的语音表示。
声码器将语音表示转换成最终的语音波形。

上图展示了 Seed-TTS 在零样本语音合成任务中，能够很好地保留说话人音色信息。即使没有针对特定说话人进行训练，Seed-TTS 也能生成与该说话人真实语音高度相似的语音，这体现了 Seed-TTS 强大的泛化能力和语音模仿能力。

t-SNE 技术：

t-SNE（t-distributed Stochastic Neighbor Embedding）是一种降维可视化技术，它可以将高维数据映射到二维或三维空间，同时保留数据点之间的相似性关系。在这张图中，t-SNE 将高维的语音嵌入向量降维到二维平面，使得我们可以直观地观察不同说话人语音之间的相似性。

上图展示了 Seed-TTS 系统中零样本语音转换（Zero-shot Voice Conversion）的流程。

目标： 将说话人 A 的语音转换为说话人 B 的语音，同时保留说话内容和韵律。

关键技术：

语音特征提取： Seed-TTS 使用语音标记器将语音信号转换成一系列离散的语音标记，这些标记包含了语音的音调、韵律等信息。
音色解耦： Seed-TTS 采用自蒸馏技术将音色信息从语音特征中分离出来，使得可以独立控制语音的音色。

上图展示了 Seed-TTSDiT 模型如何进行语音内容编辑（Content Editing）。

目标： 将原始语音中的 "cat" 替换成 "dog"，同时保留其他部分不变。

关键技术：

全扩散模型： Seed-TTSDiT 是一种完全基于扩散模型的语音合成模型，它可以直接预测输出语音的潜在表示，而无需依赖单独的时长预测模块，这使得它能够更灵活地进行语音编辑。
局部替换： Seed-TTSDiT 只需要替换需要修改的部分，而不需要重新生成整个语音，这提高了编辑效率，也保证了编辑后的语音与原始语音的一致性。

这两张图展示了 Seed-TTSDiT 模型在语音内容编辑（Content Editing）和语速编辑（Speed Editing）任务上的表现。

图 6：内容编辑

横轴： 掩码比例（Mask Ratio），表示被掩码遮盖的语音片段占整个语音的比例。
纵轴（左侧）： 词错误率（WER），表示语音识别模型对编辑后语音的识别错误率，越低越好。
纵轴（右侧）： 说话人相似度（SIM），表示编辑后语音与原始语音的说话人相似度，越高越好。

解读：

随着掩码比例的增加，WER 缓慢上升，SIM 缓慢下降，但整体变化幅度不大。
这表明 Seed-TTSDiT 在内容编辑任务中表现出较强的鲁棒性，即使掩码比例较高，也能生成高质量的语音，并保持较高的说话人相似度。

图 7：语速编辑

横轴： 语速比例（Speed Rate），表示编辑后语音的语速与原始语音语速的比例。
纵轴（左侧）： 词错误率（WER）。
纵轴（右侧）： 说话人相似度（SIM）。

解读：

当语速比例在 0.7 到 1.2 之间时，WER 和 SIM 都保持在较好的水平。
当语速比例超过 1.2 时，WER 明显上升，SIM 明显下降。
这表明 Seed-TTSDiT 能够合成不同语速的语音，并在一定范围内保持较高的说话人相似度，但当语速过快时，语音质量会下降。

通俗介绍 Seed-TTS 的黑科技

上面的内容不好理解，没关系，以下我将通俗介绍下 Seed-TTS 到底用了哪些黑科技，才能这么牛！

1. 像搭积木一样玩转语音：语音标记化

想象一下，我们平时说话，其实就是把一个个的字词按照一定的语法规则组合起来。Seed-TTS 也一样，它会先把语音信号，就像我们把句子拆成一个个的字词一样，变成一串串的“语音标记”。

这些标记就好像乐高积木，Seed-TTS 可以用它们来“拼”出各种各样的语音。这样做的好处是什么呢？

首先，效率高！Seed-TTS 不用吭哧吭哧地从头开始生成每一个音节，直接用现成的“积木”拼起来，速度嗖嗖的！

其次，质量好！因为每个“积木”都是从真实的语音数据中提取出来的，所以拼出来的语音自然就更真实、更自然。

2. 偷师学艺，青出于蓝而胜于蓝：自蒸馏技术

这名字听起来有点玄乎，其实原理很简单，就像我们小时候学习一样，先模仿老师，然后慢慢形成自己的风格。

Seed-TTS 会先生成一段语音，然后对这段语音进行一些“小改动”，比如稍微改变一下音色，或者调整一下语调，生成一段新的语音。

接下来，Seed-TTS 会把这两段语音，也就是“老师”和“学生”放在一起学习。它会努力学习“老师”语音中的精髓，同时也会根据“学生”语音的特点进行调整，最终生成更加自然、更具表现力的语音。

3. 没有最好，只有更好：强化学习优化

俗话说，熟能生巧。Seed-TTS 也一样，它会通过不断地练习来提升自己的语音生成能力。

具体是怎么做的呢？

Seed-TTS 会先生成一段语音，然后用一个专门的“评分系统”给这段语音打分。如果分数高，说明这段语音质量好，Seed-TTS 就会记住这次成功的经验；如果分数低，说明这段语音还有待改进，Seed-TTS 就会分析原因，并在下一次生成语音时进行调整。

通过这种不断试错、不断学习的方式，Seed-TTS 的语音生成能力就能得到持续提升，越来越接近人类说话的水平。

4. 颠覆传统，另辟蹊径：全扩散模型架构

Seed-TTS 还藏着一个大招，那就是它的“全扩散模型架构”。

传统的 TTS 模型，就像一个按部就班的翻译官，先把文本翻译成语音，然后再调整语音的音调、节奏等等。

而 Seed-TTSDiT，也就是 Seed-TTS 的全扩散模型版本，则完全抛弃了这种传统的做法，另辟蹊径，直接从一段随机的噪声开始，就像画家在空白的画布上作画一样，逐步“生成”出最终的语音。

这种做法的好处是什么呢？

自由度更高！Seed-TTSDiT 不受限于传统的语音合成规则，可以更自由地控制语音的各个方面，生成更富有表现力的语音。

效率更高！Seed-TTSDiT 不需要像传统模型那样一步一步地生成语音，而是直接“一步到位”。

5. 精准模仿，以假乱真：零样本上下文学习

Seed-TTS 最牛的地方来了！它可以根据一段短短的语音片段，就模仿出说话人的音色、语调，甚至连语气词都能模仿得惟妙惟肖！

就像你给 Seed-TTS 听了一段郭德纲的相声，它就能立刻模仿郭德纲的语气，给你来一段！

这项技术叫做“零样本上下文学习”，是 Seed-TTS 的一大亮点。这意味着，Seed-TTS 不需要专门针对某个说话人进行训练，就能模仿出他的声音，真正做到了“千人千声”。

6. 随心所欲，想怎么改就怎么改：语音编辑功能

比如：

内容编辑： 可以把一段语音中的某个词替换成另一个词，而且毫无违和感。
语速编辑： 可以加快或者放慢语速，而且不会像传统的变声软件那样，声音变得尖锐或者低沉。

这些功能有什么用呢？

影视后期配音： 可以用 Seed-TTS 来替换演员的台词，或者为动画片配音，效率更高，效果更好。
有声读物制作： 可以用 Seed-TTS 来调整朗读者的语速，或者修改个别读错的字词，省时省力。

7. 跨越语言障碍，沟通无极限：跨语言语音合成

也就是说，Seed-TTS 可以把一种语言的文本转换成另一种语言的语音，而且发音标准，语调自然。

它可以让不同国家、不同语言的人们更容易地进行交流。也可以为语言学习者提供更标准、更自然的语音素材。

8. 情感充沛，声情并茂：情感控制技术

Seed-TTS 不仅能模仿声音，还能模仿情感！通过“指令微调”，Seed-TTS 可以生成带有不同情绪的语音，比如开心、悲伤、愤怒等等。

想象一下，当你听到 Seed-TTS 用充满感情的声音朗读小说，是不是更有代入感？

9. 超低延迟，实时交互：低延迟推理和流式处理

Seed-TTS 采用了各种优化技术，大大降低了语音生成的延迟。

这意味着，Seed-TTS 可以用于实时语音交互场景，比如语音聊天、在线游戏等等，让我们体验到更流畅、更自然的交流。

10. 助力语音识别，构建语音理解

论文中展示的实验结果表明，用 Seed-TTS 生成的合成数据训练语音识别模型，可以有效提升语音识别的准确率”。

这就像是什么概念呢？就像我们学习一门外语，听得越多，说得就越标准。Seed-TTS 可以为语音识别模型提供海量的“学习资料”，让它更快地掌握人类语言的规律。

结语

随着 GPT-4o 的推出，越来越多的人期待开源语音技术的进一步升级。无论是字节跳动的 Seed-TTS，还是之前阿里巴巴的 EMO 模型技术（涵盖图像、音频和视频），都展示了显著的进步。

看起来个人高情商语音助手的普及已经指日可待。

欢迎在评论区留言，让我们一起交流进步。

精选历史文章，请看这里：

Google Gemini 1M 长下文窗口 + LlamaIndex agent 处理复杂、多样化文档，精准解答

Google 新推出 AI 辅助工具，Data Science Agent 和 Code Transformation 值得一试

不只是快，新版 ChatGPT 数据分析体验全记录，分享超实用 AI 提示词，助你轻松驾驭复杂数据分析

推荐一个自动生成复杂提示词的模版：思考链（CoT）如何通过分步推理提升AI任务准确性 | 示例详解

本文链接：https://aipeiyin.cc/peiyin/28.html

必剪电脑端AI配音连云港ai配音企业台州ai配音多少钱奥特曼ai配音悟空配音ai ai配音汽车最新ai配音 ai武打配音 ai文稿配音 ai配音种类

如何利用AI技术进行游戏配音，AI配音教程全面解析
【问题一】AI配音是什么？【回答】AI配音，也称为人工智能配音，是一种利用人工智能技术合成语音的技术，它通过模拟人类声音，使得计算机可以“发声”，在游戏、电影、广告等多个领域有着广泛的应用，【问题二】...
Ai配音资讯2025-03-3197游戏配音ai配音
AI配音真的智能吗？一文带你深入了解AI配音技术
什么是AI配音？答：AI配音是一种利用人工智能技术模拟人类声音的语音合成技术，与传统的机械式文本转语音（TTS）不同，AI配音能够根据文本内容和上下文更自然、更富有表现力地生成语音，AI配音技术通常涉...
Ai配音资讯2025-03-3189ai配音智能配音
AI配音与真人配音，它们有什么区别？
在当今这个时代，声音的运用已经渗透到了我们生活的方方面面，无论是广告宣传、视频制作还是播客节目，配音都扮演着重要的角色，随着技术的飞速发展，AI配音技术逐渐走进了人们的视野，它与真人配音有什么区别呢？...
Ai配音资讯2025-03-3184ai配音真人配音
AI配音神器如何让你的声音更具魅力？
您好，欢迎来到AI配音教程网，今天我们将探讨一个令许多配音爱好者和专业人士都感兴趣的话题——AI配音，随着人工智能技术的发展，AI配音已经成为一个新兴且强大的工具，它可以帮助用户轻松制作专业级别的配音...
Ai配音资讯2025-03-3085配音神器ai配音
AI配音技术如何在香港配音领域大放异彩？
近年来，随着人工智能技术的飞速发展，AI配音技术已经成为语音合成领域的一颗新星，它不仅能够模拟人类的声音，还能够根据不同的语言、口音和情感来调整发音，为各种媒体内容提供高质量的配音服务，在香港这样一个...
Ai配音资讯2025-03-2982ai配音香港配音
AI配音在Vlog制作中的应用，它是如何改变内容创作的？
创作领域，Vlog已经成为越来越受欢迎的一种形式，随着技术的进步，AI配音技术也为Vloggers带来了新的便利和可能性，如果你对如何在你的Vlog中使用AI配音感兴趣，那么这篇文章将为你提供全面的指...
Ai配音资讯2025-03-2978vlog配音ai配音
AI配音和情感配音有什么区别？一文让你了解！
大家好，今天我们来聊聊AI配音和情感配音的区别，帮助你更好地选择适合你需求的配音服务，Q1: 什么是AI配音？AI配音是指利用人工智能技术，通过机器学习算法模拟人类的声音和语言习惯，生成的配音，这种配...
Ai配音资讯2025-03-2982ai配音情感配音
AI配音鱼如何改变你的配音体验？
AI配音鱼是什么？答：AI配音鱼是一款利用人工智能技术，提供语音合成服务的软件，它通过深度学习算法，模仿真人的声音，生成自然流畅的语音输出，广泛应用于广告、有声读物、视频配音等领域，问：AI配音鱼有哪...
Ai配音资讯2025-03-2869配音鱼ai配音

Seed-TTS 论文解读：不止是语音合成，更是语音编辑、跨语言交流的未来

引言

字节发布 Seed-TTS

论文图表解读

通俗介绍 Seed-TTS 的黑科技

1. 像搭积木一样玩转语音：语音标记化

2. 偷师学艺，青出于蓝而胜于蓝：自蒸馏技术

3. 没有最好，只有更好：强化学习优化

4. 颠覆传统，另辟蹊径：全扩散模型架构

5. 精准模仿，以假乱真：零样本上下文学习

6. 随心所欲，想怎么改就怎么改：语音编辑功能

7. 跨越语言障碍，沟通无极限：跨语言语音合成

8. 情感充沛，声情并茂：情感控制技术

9. 超低延迟，实时交互：低延迟推理和流式处理

10. 助力语音识别，构建语音理解

结语

相关文章

如何利用AI技术进行游戏配音，AI配音教程全面解析

AI配音真的智能吗？一文带你深入了解AI配音技术

AI配音与真人配音，它们有什么区别？

AI配音神器如何让你的声音更具魅力？

AI配音技术如何在香港配音领域大放异彩？

AI配音在Vlog制作中的应用，它是如何改变内容创作的？

AI配音和情感配音有什么区别？一文让你了解！

AI配音鱼如何改变你的配音体验？

网友评论