阿里:发布高保真图像到视频生成新方法

AIINNEWS 2024-03-08 08:05:00 84

阿里团队提出了一项创新性的技术,名为免调谐噪声校正(Tuning-Free Noise Rectification),适用于改善主流视频扩散模型的性能。该方法以实现高度保真的输出为目标,通过注入更准确的图像信息和进行噪声校正的方式来达到这一目标。

具体来说,在给定特定图像的情况下,该方法首先向输入图像潜在地引入噪声,以保留更多细节,然后通过适当的校正对潜在噪声进行去噪,以减轻噪声预测偏差。此外,该方法的独特之处在于其无需任何额外调整即可直接应用。

论文链接:

https://noise-rectification.github.io/

相关资讯
最新资讯
最新问答
阿里发布肖像视频生成框架EMO

阿里发布肖像视频生成框架EMO

近期,阿里巴巴集团智能计算研究院推出的EMO(Emote Portrait Alive)技术引起广泛关注。EMO是一种音频驱动的肖像视频生成框架,被誉为“一种富有表现力的图片-音频-视频模型”。EMO的使用非常简便,只需提供一张照片和一段音频文件,即可在短时间内生成高度逼真的AI视频,最长时长可达1分30秒。通过EMO,不仅可以实现任意语音、语速与图像的一一对应,还能呈现出具有丰富表情和多种头部姿势的声音头像视频。以蔡徐坤的照片为例,结合其他音频,EMO能够“唱出”一首rapper饶舌,甚至口型几乎一模一样。技术原理上,EMO框架包含帧编码阶段、扩散过程阶段、去噪操作、注意力机制以及时间模块的使用。在帧编码阶段,通过ReferenceNet提取参考图像和运动帧中的特征。在扩散过程阶段,音频编码器处理音频嵌入,同时面部区域掩码与多帧噪声结合,引导面部图像生成。去噪操作通过Backbone Network实现,保证生成图像的质量和准确性。EMO内部应用Reference-Attention和Audio-Attention等注意力机制,以保持角色身份特征和调节角色动作。时间模块用于操纵时间维度,调整运动速度,使生成的视频更加自然流畅。EMO的主要特点包括高度自然与逼真的视频生成能力、身份一致性与视频生成的稳定性、以及灵活性与多样性。生成的视频不仅在视觉上吸引人,而且在动态展示上更加自然流畅。EMO还支持生成与输入音频长度相匹配的任意长度视频,展现了其对不同文化和艺术风格的广泛适应性。这一技术引领了AI在图像、音频和视频融合领域的新发展,不仅在B站鬼畜视频领域表现出色,同时也为用户提供了更加便捷、创意丰富的多媒体内容生成体验。阿里巴巴集团在智能计算领域的先进技术实力再次得到展现。EMO的应用前景广泛,尤其对于AI视频解说、AI动漫制作、短视频制作等应用场景,它都是一款妥妥的生产力工具。虽然项目尚未开源代码,但这一强大的音频驱动视频效果已经成为AI领域的一次重要进化。智东西报道指出,EMO在视频生成领域再次为国产AI模型树立了新的里程碑,让“开局一张图,后期可以全靠AI了”的设想成为现实。论文地址:https://arxiv.org/pdf/2402.17485.pdf项目主页:https://humanaigc.github.io/emote-portrait-alive/
2024-03-01 08:20:00 89
百度:发布视频生成模型UniVG -

百度:发布视频生成模型UniVG -

百度最新推出的视频生成模型UniVG引起了广泛关注。UniVG的独特之处在于其能够接受文本和图像的各种组合作为输入,并通过重新定义视频生成模型中的任务,巧妙地划分为两大类别:高自由度生成和低自由度生成。对于高自由度生成,UniVG采用了先进的“多条件交叉注意力”技术,以确保生成的视频在语义上高度一致于输入的图像或文本。这种方法使用户能够更加灵活地进行输入,满足真实世界多变的应用需求。而对于低自由度生成,UniVG引入了“偏置高斯噪声”的创新方法,相较于传统的完全随机高斯噪声,更有效地保留了输入条件的原始内容。这使得在处理特定任务时,UniVG能够更精准地生成符合用户期望的视频内容。在技术性能方面,UniVG在MSR-VTT视频数据库上表现卓越,获得了最低的帧间视频差异性度量(FVD)。这一成绩不仅超越了当前的开源方法,还与业界领先的闭源方法Gen2不相上下,凸显了UniVG的卓越实用价值和技术优势。总体而言,百度UniVG的推出为视频生成技术带来了新的突破,为用户提供了更灵活、高效的输入方式,使得视频生成模型能够更好地适应不同应用场景的需求。项目主页:https://univg-baidu.github.io论文地址:https://arxiv.org/pdf/2401.09084.pdf
2024-01-24 08:56:40 116
谷歌:发布AI视频生成模型Lumiere

谷歌:发布AI视频生成模型Lumiere

最新发布的视频生成模型——Lumiere,由谷歌推出,展示了卓越的视频生成和编辑能力。该模型采用了创新的空间-时间 U-Net 架构,通过一次传递即可生成完整视频,与传统模型的方法有所不同,后者通常需要先合成远距离关键帧,再进行时间超分辨率处理,以实现全局时间一致性。尽管Lumiere的视频输出被描述为“低分辨率”,分辨率为1024×1024像素,长度为仅5秒,但在用户研究中,其受欢迎程度超过了目前现有的AI视频合成模型。该模型在从书面提示生成视频、将静止图像转换为视频、生成特定风格的视频等方面表现卓越,同时还提供了一系列有趣的功能,如改变图像中特定区域的动画、视频修复等。Lumiere的训练数据来源并未在论文中具体披露,但谷歌表示他们在包含3000万个视频及其文字说明的数据集上训练了T2V(文本到视频)模型。尽管人工智能生成的视频仍处于不断发展阶段,Lumiere似乎在视频合成技术的潮流中处于领先地位,尤其在处理动物在荒谬、不合理、虚拟场景中的视频方面表现突出。论文地址:https://arxiv.org/abs/2401.12945地址:https://lumiere-video.github.io/
2024-01-27 08:05:00 104
腾讯发布视频生成模型VideoCrafter2

腾讯发布视频生成模型VideoCrafter2

VideoCrafter2是由腾讯AI实验室团队开发的一款强大的视频处理工具,旨在克服数据限制,提供高质量的视频扩散模型。这项重要的创新旨在提升视频的视觉质量、动态效果以及概念组合。借助独特的算法和先进的技术,VideoCrafter2能够生成令人惊叹的精美影片,为影片制作带来崭新的可能性。功能亮点:视觉质量提升: 通过先进的图像处理技术,VideoCrafter2显著提高视频的视觉质量,使图像更为清晰、细腻。动态效果增强: 该工具不仅注重静态画面,还专注于提升视频中的动态效果,使得运动更加流畅自然。概念组合优化: VideoCrafter2在视频概念的组合方面表现出色,能够更好地整合不同元素,创造出更具深度和创意的影片。这款工具的实际效果已在由人类导演的影片中得到体现,为影片制作提供了全新的可能性。项目主页:https://ailab-cvc.github.io/videocrafter2论文地址:https://arxiv.org/pdf/2401.09084.pdfDemo地址:https://discord.gg/RQENrunu92
2024-01-22 15:32:57 164
腾讯:发布自研游戏AI引擎GiiNEX

腾讯:发布自研游戏AI引擎GiiNEX

腾讯在2024年全球游戏开发者大会(GDC)上正式揭晓了其自研的GiiNEX游戏AI引擎,这一里程碑式的创新举措,标志着游戏开发领域迈向了一个全新的智能时代。GiiNEX的发布,不仅彰显了腾讯在游戏AI技术领域的深厚积淀,更预示着游戏产业与人工智能技术的深度融合将带来前所未有的变革。GiiNEX游戏AI引擎的核心在于其强大的生成式AI和决策AI技术。通过这两项技术的结合,GiiNEX为游戏开发者提供了前所未有的AIGC(人工智能生成内容)能力。在内容生成方面,GiiNEX支持从AI NPC、场景制作到剧情、对话、关卡和音乐的全方位内容生成,极大地提升了游戏内容的丰富性和多样性。特别值得一提的是,GiiNEX在游戏3D城市生成方面的创新应用。通过其城市布局工具,开发者能够在极短的时间内构建出庞大而逼真的城市环境。相较于传统方法,GiiNEX的效率提升了百倍之多,使得游戏开发者能够更加专注于游戏设计和玩法创新,而非耗费大量时间在繁琐的场景制作上。除了内容生成,GiiNEX在决策AI技术上也取得了显著进展。通过实时对局分析、人机指令交互等功能,GiiNEX能够为玩家提供精准的操作指南和战术建议。这一技术的应用,不仅有助于提升玩家的游戏体验,更能够推动游戏玩法和策略的深化,使得游戏更具挑战性和趣味性。GiiNEX的成功发布,得益于腾讯在游戏AI领域的持续投入和深入研究。该引擎集成了前沿算法模型、高效训练平台和在线推理引擎三大核心,确保了其在游戏开发全生命周期中的高效运行和稳定支持。同时,基于强化学习、自然语言处理等AI基础研究能力,GiiNEX构建了统一算法底层模型,使得其能够支持多种游戏类型,满足不同玩家的需求。展望未来,随着GiiNEX的持续拓展游戏AI解决方案,我们有理由相信,游戏与人工智能的融合将会进一步加深。这一融合将不仅局限于内容生成和决策支持,更将渗透到游戏设计、玩家互动、运营管理等各个环节。在GiiNEX的引领下,游戏世界将会变得更加真实、生动和富有想象力,为玩家带来前所未有的沉浸式体验。同时,GiiNEX的成功也将推动整个游戏行业的创新和发展。它将激发更多游戏开发者探索新的游戏玩法和设计理念,推动游戏产业的持续进步。而对于玩家来说,GiiNEX将带来更加丰富、多样化和个性化的游戏体验,使得游戏不仅是一种娱乐方式,更成为一种文化和生活方式。腾讯自研的GiiNEX游戏AI引擎的发布是游戏开发领域的一次重大突破和创新。它不仅为游戏开发者提供了强大的技术支持和内容生成能力,更将推动整个游戏行业的进步和发展。我们有理由期待,在GiiNEX的引领下,游戏世界将会迎来更加美好的未来。
2024-03-25 08:15:00 71
社群
人工智能学堂 加入
扫描二维码
Glen 加入
扫描二维码