豆包开源VideoWorld:突破传统的视频生成模型 2月10日,豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源。这一模型在技术上实现了重大突破,开创了无需依赖语言模型即可认知世界的先河,与Sora、DALL-E、Midjourney等主流多模态模型形成显著差异。 目前,多数模型在知识学习过程中严重依赖语言或标签数据,对于纯视觉信号学习涉足较少。语言存在局限性,无法完整涵盖真实世界的所有知识,像折纸、打领结这类复杂任务,很难通过语言精确表述。VideoWorld摒弃语言模型,实现了理解和推理任务的统一执行,解决了现有模型的痛点。 VideoWorld基于潜在动态模型,能高效压缩视频帧间变化信息,大幅提升知识学习的效率和效果。值得一提的是,该模型在没有强化学习搜索或奖励函数机制的支持下,达到专业5段9×9围棋水平,还能在多种环境中执行机器人任务。其论文链接、代码链接及项目主页均已公布,为相关领域研究和应用提供了新方向。 | | ☘️ ️
- 转载请保留原文链接谢谢!
- 本站所有资源文章出自互联网收集整理,本站不参与制作,如果侵犯了您的合法权益,请联系本站我们会及时删除。
- 本站发布资源来源于互联网,可能存在水印或者引流等信息,请用户擦亮眼睛自行鉴别,做一个有主见和判断力的用户。
- 本站资源仅供研究、学习交流之用,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。
- 联系方式:936787576@qq.com