大一统视频编辑框架:浙大&微软推出UniEdit

AIINNEWS 2024-03-06 08:05:00 81

浙江大学、微软亚洲研究院和北京大学的联合研究团队推出了一款革命性的视频编辑框架——UniEdit。该框架基于文本描述,融合了自然语言界面和先进的视频生成模型,使用户能够轻松实现各种编辑需求,无需繁琐的预训练过程。UniEdit在处理动作编辑、风格转移、背景替换和物体替换等多种编辑场景方面表现卓越,其核心创新点在于引入了辅助的动作参考分支和视频重建分支,实现了动作注入和内容保留。这一工具不仅在时间一致性和与目标提示的一致性方面超越了基线方法,而且在用户友好性和便捷部署方面也取得了显著的进展。

UniEdit的推出可能会彻底改变视频编辑技术领域的游戏规则,为专业人士和爱好者提供了高效且直观的视频编辑解决方案。其独特的用户界面使编辑过程更加简单,同时保持了高质量的结构和纹理细节。UniEdit不仅是当前视频编辑领域的一大进步,也为用户带来了更为便利和令人满意的编辑体验。

论文地址:

https://arxiv.org/abs/2402.13185

项目地址:

https://jianhongbai.github.io/UniEdit

代码地址:

https://github.com/JianhongBai/UniEdit

相关资讯
最新资讯
最新问答
百度:发布视频生成模型UniVG -

百度:发布视频生成模型UniVG -

百度最新推出的视频生成模型UniVG引起了广泛关注。UniVG的独特之处在于其能够接受文本和图像的各种组合作为输入,并通过重新定义视频生成模型中的任务,巧妙地划分为两大类别:高自由度生成和低自由度生成。对于高自由度生成,UniVG采用了先进的“多条件交叉注意力”技术,以确保生成的视频在语义上高度一致于输入的图像或文本。这种方法使用户能够更加灵活地进行输入,满足真实世界多变的应用需求。而对于低自由度生成,UniVG引入了“偏置高斯噪声”的创新方法,相较于传统的完全随机高斯噪声,更有效地保留了输入条件的原始内容。这使得在处理特定任务时,UniVG能够更精准地生成符合用户期望的视频内容。在技术性能方面,UniVG在MSR-VTT视频数据库上表现卓越,获得了最低的帧间视频差异性度量(FVD)。这一成绩不仅超越了当前的开源方法,还与业界领先的闭源方法Gen2不相上下,凸显了UniVG的卓越实用价值和技术优势。总体而言,百度UniVG的推出为视频生成技术带来了新的突破,为用户提供了更灵活、高效的输入方式,使得视频生成模型能够更好地适应不同应用场景的需求。项目主页:https://univg-baidu.github.io论文地址:https://arxiv.org/pdf/2401.09084.pdf
2024-01-24 08:56:40 117
阿里发布肖像视频生成框架EMO

阿里发布肖像视频生成框架EMO

近期,阿里巴巴集团智能计算研究院推出的EMO(Emote Portrait Alive)技术引起广泛关注。EMO是一种音频驱动的肖像视频生成框架,被誉为“一种富有表现力的图片-音频-视频模型”。EMO的使用非常简便,只需提供一张照片和一段音频文件,即可在短时间内生成高度逼真的AI视频,最长时长可达1分30秒。通过EMO,不仅可以实现任意语音、语速与图像的一一对应,还能呈现出具有丰富表情和多种头部姿势的声音头像视频。以蔡徐坤的照片为例,结合其他音频,EMO能够“唱出”一首rapper饶舌,甚至口型几乎一模一样。技术原理上,EMO框架包含帧编码阶段、扩散过程阶段、去噪操作、注意力机制以及时间模块的使用。在帧编码阶段,通过ReferenceNet提取参考图像和运动帧中的特征。在扩散过程阶段,音频编码器处理音频嵌入,同时面部区域掩码与多帧噪声结合,引导面部图像生成。去噪操作通过Backbone Network实现,保证生成图像的质量和准确性。EMO内部应用Reference-Attention和Audio-Attention等注意力机制,以保持角色身份特征和调节角色动作。时间模块用于操纵时间维度,调整运动速度,使生成的视频更加自然流畅。EMO的主要特点包括高度自然与逼真的视频生成能力、身份一致性与视频生成的稳定性、以及灵活性与多样性。生成的视频不仅在视觉上吸引人,而且在动态展示上更加自然流畅。EMO还支持生成与输入音频长度相匹配的任意长度视频,展现了其对不同文化和艺术风格的广泛适应性。这一技术引领了AI在图像、音频和视频融合领域的新发展,不仅在B站鬼畜视频领域表现出色,同时也为用户提供了更加便捷、创意丰富的多媒体内容生成体验。阿里巴巴集团在智能计算领域的先进技术实力再次得到展现。EMO的应用前景广泛,尤其对于AI视频解说、AI动漫制作、短视频制作等应用场景,它都是一款妥妥的生产力工具。虽然项目尚未开源代码,但这一强大的音频驱动视频效果已经成为AI领域的一次重要进化。智东西报道指出,EMO在视频生成领域再次为国产AI模型树立了新的里程碑,让“开局一张图,后期可以全靠AI了”的设想成为现实。论文地址:https://arxiv.org/pdf/2402.17485.pdf项目主页:https://humanaigc.github.io/emote-portrait-alive/
2024-03-01 08:20:00 89
Gemini 1.5通过视频成功修复Bug

Gemini 1.5通过视频成功修复Bug

社交平台X博主Mckay Wrigley和twitter用户@0xca0a的经验共同展示了Gemini Pro 1.5在自动代码修复领域的卓越性能。Mckay Wrigley通过文字描述和上传程序界面截图向Gemini Pro 1.5报告了问题,Gemini不仅准确找到了问题代码的位置,还提供了详细的解决方案,成功修复了Bug。而twitter用户@0xca0a则采用了一种更为直观的方法,通过录制应用中的三个不同的bug,并将视频连同整个代码库一并提交给Gemini 1.5 Pro。令人惊讶的是,Gemini成功识别并修复了每一个bug。这表明通过视频记录bug,并利用AI进行分析和修复,可能成为传统bug修复流程的革新,极大提高了开发效率。这两个案例突显了Gemini Pro 1.5在自动代码修复方面的出色表现。无论是通过文字报告还是视频记录,Gemini都展现了其强大的问题定位和解决能力。这种智能修复的方法不仅能够减少开发者的工作负担,更为开发团队提供了一种更快速、高效的bug修复途径。这一技术的应用可能会为开发者社区带来积极影响,推动软件开发过程的创新。通过Gemini Pro 1.5的先进能力,社交平台X博主和twitter用户的经验都揭示了自动化代码修复的巨大潜力,这不仅是技术上的进步,也是提升开发效率的重要一步。
2024-03-01 08:00:00 91
Stability AI与VAST推出快速将单图转3D模型

Stability AI与VAST推出快速将单图转3D模型

稳定性AI与国内3D生成模型公司VAST宣布了一项引人注目的合作,联手推出了TripoSR——一款快速的3D物体重建模型,并开源发布。TripoSR是一款受到LRM启发的人工智能模型,专注于视觉内容生成,满足娱乐、游戏、工业设计和建筑等领域不断增长的需求。该模型具备在极短时间内从单张图像生成高质量3D模型的能力,即使在无GPU的情况下也能运行。在经过英伟达A100的严格测试后,TripoSR表现出色,能够在约0.5秒内生成草稿质量的3D输出,带有纹理网格,明显领先于其他开源图像转3D模型工具,如OpenLRM。为了支持广泛的使用,Stability AI根据MIT许可提供了TripoSR模型的权重和源代码,供商业、个人和研究用途自由下载。在模型的训练过程中,Stability AI采用了多种数据渲染技术,提高了模型的泛化能力。通过精心设计更高质量的Objaverse数据集子集训练数据,TripoSR更接近复制现实世界中的图像分布,进一步提升了泛化性能。此外,模型经过通道数优化、掩模监控和更高效的裁剪渲染策略的多项技术改进,性能更为出色。TripoSR的发布是Stability AI和VAST合作的成果,为用户提供了高效、快速且质量优越的3D物体重建解决方案,将在不同领域展现广泛的应用潜力。项目地址:https://github.com/VAST-AI-Research/TripoSR技术报告:https://stability.ai/s/TripoSR_report.pdf
2024-03-07 08:10:00 100
机器学习框架

机器学习框架

一、引言随着人工智能(AI)的不断发展,机器学习已经成为一个极其重要的研究领域。在深度学习领域,各种机器学习框架如TensorFlow、PyTorch等已经成为许多研究人员和开发者的首选工具。这些框架不仅提供了高效且易用的编程接口,而且为开发者提供了丰富的资源,使深度学习变得更加简单和高效。本文将深入了解深度学习领域的技术支柱,即机器学习框架。二、机器学习框架的类型机器学习框架根据其设计和功能,可分为监督学习框架、无监督学习框架、半监督学习框架等。不同类型的框架适用于不同的场景和任务,为深度学习提供了多样化的解决方案。例如,TensorFlow提供了丰富的API和工具,支持各种机器学习算法和模型的开发和部署。PyTorch则以其动态图和灵活的神经网络设计,为研究人员和开发者提供了更高效的开发环境。三、机器学习框架的核心技术机器学习框架的核心技术包括数据输入处理、模型定义、训练算法、优化算法、评估指标等。其中,数据输入处理是机器学习的关键步骤,通过预处理、数据增强等手段,可以提高模型的性能和泛化能力。模型定义是构建神经网络结构的过程,包括网络层、连接方式、激活函数等。训练算法则是通过迭代的方式,对模型进行参数调整以优化性能。优化算法则用于加速模型训练过程,提高模型的精度和效率。评估指标则用于衡量模型的性能,如准确率、召回率、AUC值等。四、深度学习与机器学习的关系深度学习是机器学习的一个分支,它利用神经网络进行特征学习和模式识别,具有强大的表现力和广泛的应用场景。深度学习框架如TensorFlow、PyTorch等为深度学习的研究和发展提供了强大的支持。通过使用这些框架,开发者可以快速构建和训练各种深度学习模型,实现语音识别、图像处理、自然语言处理等领域的应用。五、结论机器学习框架是深度学习领域的技术支柱,它们为开发者提供了高效且易用的编程接口和资源,使深度学习的开发变得更加简单和高效。了解和掌握这些框架的核心技术和应用场景,对于深度学习的研究和发展具有重要意义。未来,随着人工智能技术的不断发展,机器学习框架将在更多领域发挥重要作用,为人类社会带来更多便利和价值。
2024-02-27 14:26:53 76
社群
人工智能学堂 加入
扫描二维码
Glen 加入
扫描二维码