4 月 27 日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。该模型采用团队原创的 Diffusion 与 Transformer 融合的架构 U-ViT,支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。Vidu 不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。Vidu 是自 Sora 发布之后全球率先取得重大突破的视频大模型,性能全面对标 Sora,并在加速迭代提升中。
生数科技是一支清华背景的大模型创业团队,致力于专注于视频生成、3D 生成、图像生成等多模态领域。据悉,Vidu 的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术 U-ViT 架构由团队于 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 与 Transformer 融合的架构,完全由团队自主研发。
清华人工智能研究院、清华人工智能研究院副院长朱军博士对媒体表示:Vidu 的视频时长会继续突破,“另外,我们的架构是支持多模态的,视频模态只是当前阶段最重要的。”据生数透露,Vidu 目前正在加速迭代提升,面向未来,Vidu 灵活的模型架构也将能够兼容更广泛的多模态能力。言下之意,还说生数科技是“中国 sora”,就有点太没想象力了。
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。