中國首個Sora級視頻大模型Vidu發佈

07:34, 28 4月 2024

據中國媒體報道，在2024中關村論壇年會未來人工智能先鋒論壇上，清華大學聯合生數科技27日正式發佈中國首個長時長、高一致性、高動態性視頻大模型——Vidu。

該模型採用團隊原創的Diffusion與Transformer融合的架構U-ViT，支持一鍵生成長達16秒、分辨率高達1080P的高清視頻內容。

據介紹，Vidu不僅能夠模擬真實物理世界，還擁有豐富想象力，具備多鏡頭生成、時空一致性高等特點。Vidu是自Sora發佈之後全球率先取得重大突破的視頻大模型，性能全面對標國際頂尖水平，並在加速迭代提升中。

據報道，在當天的論壇上，清華大學教授、生數科技首席科學家朱軍表示，與Sora一致，Vidu能夠根據提供的文本描述直接生成長達16秒的高質量視頻。除了在時長方面的突破外，Vidu在視頻效果方面實現顯著提升，主要體現在模擬真實物理世界、多鏡頭語言、時空一致性高、理解中國元素等方面。

4月12日, 13:51