Vidu:清华联合生数科技发布全球首个长时高清视频大模型

清华大学与生数科技联合发布全球首个长时长、高一致性、高动态性视频大模型——Vidu

近日,我国著名学府清华大学与生数科技正式宣布发布全球首个具有长时长、高一致性和高动态性的视频大模型——Vidu。这一突破性技术标志着我国在视频大模型领域取得了重要突破,并达到国际顶尖水平。

据悉,Vidu采用了一种创新性的架构U-ViT,将团队的原创技术Diffusion与Transformer相结合。这种设计使得Vidu能够在短时间内生成长达16秒、分辨率达到1080P的高清视频内容。此外,Vidu还能模拟真实的物理世界,具有丰富的想象力和多种镜头生成能力,同时保持了时空一致性高的特点。

Vidu的发布得到了业内的广泛认可。清华大学教授、生数科技首席科学家朱军表示,Vidu的生成方式与Sora相似,可以直接从文本描述中生成高质量的视频。在模拟真实物理世界、多镜头语言、时空一致性高以及理解中国元素等方面,Vidu都实现了显著的提升。

Vidu的快速发展源于团队在贝叶斯机器学习和多模态大模型领域的长期积累和多项原创性成果。U-ViT架构由团队于2022年9月首次提出,是全球首个将Diffusion与Transformer相结合的架构,比Sora所采用的DiT架构提前了半年。在短短两个月内,团队进一步突破了长视频表示与处理的关键技术,成功研发出Vidu视频大模型,显著提升了视频的连贯性与动态性。

朱军教授强调,Vidu的命名寓意着团队一直秉持的创新精神:“Vidu的名字不仅谐音’Vedio’,也蕴含’We do’的寓意。”他希望通过与产业链上下游企业、研究机构和全球合作伙伴的紧密合作,共同推动视频大模型技术的进步。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注