Google DeepMind 刚刚发布了关于实验室视频转音频 (V2A) 系统的新研究,该系统可以为视频生成详细、同步的配乐——包括音乐、音效、对话等。
V2A 将原始视频像素与文本描述相结合,以产生与视频输出的视觉效果和音调相匹配的逼真的音频。
V2A 模型在视频、音频、音效注释和语音记录上进行训练,以学习视觉和音频事件之间的关联。
DeepMind 表示,正在与领先的电影制作人一起测试 V2A 模型,并计划在向公众开放之前进行更多的安全测试。
尽管人工智能视频生成技术发展迅速,但结果往往出奇地安静。V2A 与 Veo 或其他模型的集成可以将创意能力提升到一个新的水平——对话、音效和音乐很快就能与视频输出无缝匹配。
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。