CosyVoice2 论文
- 2024.12 CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models(流式合成)
- paper code: 公开推理和权重,训练过程需要在CosyVoice的基础上修改下。
zero-shot TTS models 零样本 TTS 模型
codec language models 编解码器语言模型
-
speech codec model to extract discrete speech representation:
-
speech codec model + autoregressive model to predict the speech tokens (acoustic tokens):
-
speech codec model (speech semantics Codec) + non-autoregressive masked model to predict the speech tokens (acoustic tokens):
-
codec model (speech acoustic Codec) or vocoder to synthesize waveforms from mel-spectrograms:
-
2023.6 Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis | paper code | 推理速度快:运行速度比 HiFi-GAN 快约 13 倍,比 BigVGAN 快近 70 倍。在没有 GPU 加速的情况下运行时,这种速度优势尤其明显。这主要是由于使用了短时傅里叶逆变换(ISTFT)算法而不是转置卷积。还评估了 Vocos 的一个变体,它利用 ResBlock 的扩张卷积而不是 ConvNeXt 块。在 GPU 上执行时,深度可分离卷积可提供额外的加速。
-
2023.12 WaveNeXt: ConvNeXt-Based Fast Neural Vocoder Without ISTFT layer | demo samples | paper code基于 ESPNet2-TTS | 一种新型的基于ConvNeXt的快速神经声码器WaveNeXt,它通过替换Vocos中的逆短时傅里叶变换(iSTFT)层为可训练的线性层,直接预测语音波形样本,而不依赖于STFT频谱。这一改进不仅保持了Vocos的快速推理速度,还提高了语音合成的质量。文章还探讨了如何将WaveNeXt与基于JETS的端到端文本到语音(E2E TTS)框架集成,并研究了采样频率为48kHz的全带模型(Full-band Model:能够处理和生成覆盖整个音频频谱范围的模型,通常是指能够处理从最低频到最高频的完整音频信号的模型)。实验结果表明,WaveNeXt在分析-合成和E2E TTS条件下均优于Vocos,同时保持了快速推理的能力。
-
feature diffusion models 特征扩散模型
DDPM + CFM + NAR(non-autoregressive) model, 没有 codec
-
Base module:
- Denoising Diffusion Probabilistic Model(DDPM): 2020.6 Denoising Diffusion Probabilistic Models | paper code
- Conditional Flow Matching (CFM): 2022.10 Flow Matching for Generative Modeling | CFM lib
-
the alignment modeling between input text and synthesized speech:
-
phoneme-level duration model:
- 2024.5 NaturalSpeech 3 and 2023.6 Voicebox use frame-wise phoneme alignment;
- 2023.9 Matcha-TTS adopts monotonic alignment search(MAS) and relies on phoneme-level duration model;
- 2024.6 E2 TTS 和2024.6 Seed-TTS 研究表明在文本和语音之间引入这种僵化和不灵活的对齐方式会阻碍模型生成更自然的结果。
-
E3 TTS 放弃音素级持续时间并对输入序列应用交叉注意力,但产生的音频质量有限;
-
DiTTo-TTS 使用扩散变换器 (DiT) ,并以来自预训练语言模型的编码文本为条件进行交叉注意。为了进一步增强对齐,它使用预训练的语言模型来微调神经音频编解码器,将语义信息注入生成的表示中;
-
相比之下,基于 Voicebox的 E2 TTS采用了更简单的方法,删除了音素和持续时间预测器,直接使用填充token填充到梅尔频谱图长度的字符作为输入。这个简单的方案也实现了非常自然和真实的合成结果。然而,F5-TTS 发现 E2 TTS 中文本和语音对齐存在鲁棒性问题。
-
2024.6 Seed-TTS 采用了类似的策略并取得了优异的结果,尽管没有详细说明模型细节。在这些未明确建模音素级持续时间的方法中,模型学习根据给定的总序列长度分配每个单词或音素的长度,从而改进韵律和节奏。
-
-
2024.10 F5-TTS: A fairytaler that fakes fluent and faithful speech with flow matching 保持了管道的简单性,无需音素对齐、持续时间预测器、文本编码器和语义注入编解码器模型,利用带有 ConvNeXt V2|paper code 的Diffusion Transformer(DiT)来更好地解决上下文学习期间的文本语音对齐问题。
codec language and feature diffusion hybrid systems 混合系统
text-to-codec language model 和 codec-to-feature diffusion model
语言模型解决文本和语音之间的对齐以及话语持续时间预测,而编解码器到特征扩散模型则根据生成的编解码器和其他条件合成语音特征(梅尔谱)。通过利用两种生成模型的优势,混合系统实现了高度多样性、韵律一致性和语音质量。
language model-based zero-shot TTS models streaming synthesis
- 2024.2 BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data | 小红书的FireRedTTS 来源于此 FireRedTTS paper code
- 2024.6 LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes
- 2024.9 Speak While You Think: Streaming Speech Synthesis During Text Generation
- 2024.10 Zero-Shot Text-to-Speech from Continuous Text Streams