Audio Gen

Audio Gen

Survey

awesome-voice-conversion - JeffC0628

Audio Generation

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization, arXiv, 2412.21037, arxiv, pdf, cication: -1

Chia-Yu Hung, Navonil Majumder, Zhifeng Kong, ..., Bryan Catanzaro, Soujanya Poria · (tangoflux.github)
Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks, icassp 2024-2024 ieee international conference on acoustics …, 2024, arxiv, pdf, cication: -1

Soumi Maiti, Yifan Peng, Shukjae Choi, ..., Xuankai Chang, Shinji Watanabe
Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis, arXiv, 2412.15322, arxiv, pdf, cication: -1

Ho Kei Cheng, Masato Ishii, Akio Hayakawa, ..., Alexander Schwing, Yuki Mitsufuji · (huggingface) · (hkchengrex) · (MMAudio - hkchengrex)
Fugatto is a framework for audio synthesis and transformation given text instructions and optional audio inputs.

· (fugatto.github)
Tell What You Hear From What You See -- Video to Audio Generation Through Text, arXiv, 2411.05679, arxiv, pdf, cication: -1

Xiulong Liu, Kun Su, Eli Shlizerman
Audiobox TTA-RAG: Improving Zero-Shot and Few-Shot Text-To-Audio with Retrieval-Augmented Generation, arXiv, 2411.05141, arxiv, pdf, cication: -1

Mu Yang, Bowen Shi, Matthew Le, ..., Wei-Ning Hsu, Andros Tjandra
FlashAudio: Rectified Flows for Fast and High-Fidelity Text-to-Audio Generation, arXiv, 2410.12266, arxiv, pdf, cication: -1

Huadai Liu, Jialei Wang, Rongjie Huang, ..., Wei Xue, Zhou Zhao
Movie Gen: A Cast of Media Foundation Models, arXiv, 2410.13720, arxiv, pdf, cication: -1

Adam Polyak, Amit Zohar, Andrew Brown, ..., Vladan Petrovic, Yuming Du · (ai.meta)

Speech Generation

Introducing hertz-dev, the first open-source base model for conversational audio generation

· (x) · (hertz-dev - Standard-Intelligence)

Conversion

CoDiff-VC: A Codec-Assisted Diffusion Model for Zero-shot Voice Conversion, arXiv, 2411.18918, arxiv, pdf, cication: -1

Yuke Li, Xinfa Zhu, Hanzhao Li, ..., Zhifei Li, Lei Xie

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

audio_gen.md

audio_gen.md

Audio Gen

Survey

Audio Generation

Speech Generation

Conversion

Audio Editting

Datasets

Toolkits

Products

Misc

Misc

Files

audio_gen.md

Latest commit

History

audio_gen.md

File metadata and controls

Audio Gen

Survey

Audio Generation

Speech Generation

Conversion

Audio Editting

Datasets

Toolkits

Products

Misc

Misc