GenAU是Snap Research开发的先进音频生成模型,通过AutoCap自动字幕生成和GenAu音频生成架构,大幅提升了音频生成质量。它擅长生成环境声音和效果,特别适合数据稀缺和字幕质量不足的场景。GenAU的核心特色包括高效的AutoCap字幕生成、基于FIT架构的GenAu音频生成、创新的音频1D-VAE和Q-Former模块等。该工具主要面向音频内容创作者、音频合成研究人员和需要高质量音频的企业,可应用于游戏开发、电影制作和虚拟现实等领域。GenAU为用户提供了生成逼真环境声音、背景音乐和特定音效的强大能力,显著提升了音频内容的质量和沉浸感,为各类音频相关项目带来了巨大价值。