PRML Speech Team Demo Page

2025

EMNLP, 2025 [Paper] [Demo]

FillerSpeech: Towards Human-Like Text-to-Speech Synthesis with Filler Injection and Filler Style Control

TNNLS, 2025 [Paper] [Demo]

HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation by Hierarchical Variational Inference for Zero-shot Speech Synthesis

INTERSPEECH, 2025 [Paper] [Demo]

Spotlight-TTS: Spotlighting the Style via Voiced-Aware Style Extraction and Style Direction Adjustment for Expressive Text-to-Speech

INTERSPEECH, 2025 [Paper]

EmoSphere-SER: Enhancing Speech Emotion Recognition through Spherical Representation with Auxiliary Classification

INTERSPEECH, 2025 [Paper] [Demo]

DiEmo-TTS: Disentangled Emotion Representations via Self-Supervised Distillation for Cross-Speaker Emotion Transfer in Text-to-Speech

INTERSPEECH, 2025 [Paper] [Demo]

VibE-SVC: Vibrato Extraction with High-frequency F0 Contour for Singing Voice Conversion

TASLP, 2025 [Paper] [Demo]

Hierarchical Diffusion Model for Zero-Shot Singing Voice Synthesis with MIDI Priors

ICASSP, 2025 [Paper] [Demo]

FLowHigh: Towards Efficient and High-Quality Audio Super-Resolution with Single-Step Flow Matching

ICASSP, 2025 [Paper] [Demo]

JELLY: Joint Emotion Recognition and Context Reasoning with LLMs for Conversational Speech Synthesis

TAFFC, 2025 [Paper] [Demo]

DurFlex-EVC: Duration-Flexible Emotional Voice Conversion Leveraging Discrete Representations Without Text Alignment

TASLP, 2025 [Paper] [Demo]

UnitCorrect: Unit-based Mispronunciation Correcting System with a DTW-based Detection

TAFFC, 2025 [Paper] [Demo]

EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector

ICLR, 2025 [Paper] [Demo]

PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

2024

SMC, 2024 [Paper] [Demo]

PromotiCon: Prompt-based Emotion Controllable Text-to-Speech via Prompt Generation and Matching

INTERSPEECH, 2024 [Paper] [Demo]

EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech

TASLP, 2024 [Paper] [Demo]

DiffProsody: Diffusion-Based Latent Prosody Generation for Expressive Speech Synthesis With Prosody Conditional Adversarial Training

TASLP, 2024 [Paper] [Demo]

Audio Super-Resolution With Robust Speech Representation Learning of Masked Autoencoder

ICASSP, 2024 [Paper] [Demo]

TranSentence: Speech-to-Speech Translation via Language-agnostic Sentence-level Speech Encoding without Language-parallel Data

ICASSP, 2024 [Paper] [Demo]

MIDI-Voice: Expressive Zero-shot Singing Voice Synthesis via MIDI-driven Priors

AAAI, 2024 [Paper] [Demo]

DDDM-VC: Decoupled Denoising Diffusion Models with Disentangled Representation and Prior Mixup for Verified Robust Voice Conversion

2023

INTERSPEECH, 2023 [Paper] [Demo]

HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer

INTERSPEECH, 2023 [Paper] [Demo]

Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation

ACPR, 2023 [Paper] [Demo]

PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and Pause-based Prosody Modeling

2022

NeurIPS, 2022 [Paper] [Demo]

HierSpeech: Bridging the Gap between Text and Speech by Hierarchical Variational Inference using Self-supervised Representation for Speech Synthesis

TASLP, 2022 [Paper] [Demo]

Duration Controllable Voice Conversion via Phoneme-Based Information Bottleneck

ICPR, 2022 [Paper] [Demo]

StyleVC: Non-parallel Voice Conversion with Adversarial Style Generalization

ICASSP, 2022 [Paper] [Demo]

EmoQ-TTS: Emotion intensity Quantization for Fine-grained Controllable Emotional Text-to-Speech

ICASSP, 2022 [Paper] [Demo]

Fre-GAN 2: Fast and Efficient Frequency-consistent Audio Synthesis

ICASSP, 2022 [Paper] [Demo]

PVAE-TTS: High-Quality Adaptive Text-to-Speech via Progressive Variational Autoencoder

2021

NeurIPS, 2021 [Paper] [Demo]

VoiceMixer: Adversarial Voice Style Mixup

AAAI2021, 2021 [Paper] [Demo]

Multi-SpectroGAN: High-Diversity and High-Fidelity Spectrogram Generation with Adversarial Style Recombination for Speech Synthesis

SMC, 2021 [Paper] [Demo]

GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints

INTERSPEECH, 2021 [Paper] [Demo]

Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-Speech

INTERSPEECH, 2021 [Paper] [Demo]

Fre-GAN: Adversarial Frequency-consistent Audio Synthesis

2020

INTERSPEECH, 2020 [Paper] [Demo]

Audio dequantization for high fidelity audio generation in flow-based neural vocoder