据智谱AI介绍,仅需30s的时间,就能生成出6s的1440×960视频,模型推理的速度足足提高了6倍之多。
据智谱AI所述,团队自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,大大减少了视频扩散生成模型的训练成本及训练难度。
在模型结构方面,智谱团队则是采用因果三维卷积(Causal 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。
除了文生视频之外,清影这次把图生视频的能力也一道发布。
智谱AI版Sora来了!人人免费不限次,有手机就能玩,API也开放了
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。