該模型採用團隊原創的Diffusion與Transformer融合的架構U-ViT,支持一鍵生成長達16秒、分辨率高達1080P的高清視頻內容。
據介紹,Vidu不僅能夠模擬真實物理世界,還擁有豐富想象力,具備多鏡頭生成、時空一致性高等特點。Vidu是自Sora發佈之後全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,並在加速迭代提升中。
據報道,在當天的論壇上,清華大學教授、生數科技首席科學家朱軍表示,與Sora一致,Vidu能夠根據提供的文本描述直接生成長達16秒的高質量視頻。除了在時長方面的突破外,Vidu在視頻效果方面實現顯著提升,主要體現在模擬真實物理世界、多鏡頭語言、時空一致性高、理解中國元素等方面。