北大与快手 AI 提出新框架 VideoTetris 可生成高难度、指令超复杂视频,在复杂视频生成任务中表现优于 Pika、Gen-2 等商用模型,该框架能直接增强组合生成,支持更高难度长视频生成,团队首次定义组合视频生成任务及两个子任务,现有的开源及商用模型大多不能生成正确视频,而 VideoTetris 能成功生成并保留位置信息和细节特征,在长视频生成方面表现出色,其效果通过时空组合扩散方法实现,包括按时间解构提示词、在每一帧空间维度解构等,还提出增强训练数据预处理方法和引入参考帧注意力机制以优化长视频生成,团队引入新评测指标将组合生成评价扩展到视频维度,实验表明该模型在组合视频生成能力上超过所有开源模型和商用模型。
论文地址:
https://arxiv.org/pdf/2406.04277
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。