百度:发布视频生成模型UniVG -

AIINEWS 2024-01-24 08:56:40 116

百度最新推出的视频生成模型UniVG引起了广泛关注。UniVG的独特之处在于其能够接受文本和图像的各种组合作为输入,并通过重新定义视频生成模型中的任务,巧妙地划分为两大类别:高自由度生成和低自由度生成。

对于高自由度生成,UniVG采用了先进的“多条件交叉注意力”技术,以确保生成的视频在语义上高度一致于输入的图像或文本。这种方法使用户能够更加灵活地进行输入,满足真实世界多变的应用需求。

而对于低自由度生成,UniVG引入了“偏置高斯噪声”的创新方法,相较于传统的完全随机高斯噪声,更有效地保留了输入条件的原始内容。这使得在处理特定任务时,UniVG能够更精准地生成符合用户期望的视频内容。

在技术性能方面,UniVG在MSR-VTT视频数据库上表现卓越,获得了最低的帧间视频差异性度量(FVD)。这一成绩不仅超越了当前的开源方法,还与业界领先的闭源方法Gen2不相上下,凸显了UniVG的卓越实用价值和技术优势。

总体而言,百度UniVG的推出为视频生成技术带来了新的突破,为用户提供了更灵活、高效的输入方式,使得视频生成模型能够更好地适应不同应用场景的需求。

项目主页:https://univg-baidu.github.io

论文地址:https://arxiv.org/pdf/2401.09084.pdf

相关资讯
最新资讯
最新问答
谷歌:发布AI视频生成模型Lumiere

谷歌:发布AI视频生成模型Lumiere

最新发布的视频生成模型——Lumiere,由谷歌推出,展示了卓越的视频生成和编辑能力。该模型采用了创新的空间-时间 U-Net 架构,通过一次传递即可生成完整视频,与传统模型的方法有所不同,后者通常需要先合成远距离关键帧,再进行时间超分辨率处理,以实现全局时间一致性。尽管Lumiere的视频输出被描述为“低分辨率”,分辨率为1024×1024像素,长度为仅5秒,但在用户研究中,其受欢迎程度超过了目前现有的AI视频合成模型。该模型在从书面提示生成视频、将静止图像转换为视频、生成特定风格的视频等方面表现卓越,同时还提供了一系列有趣的功能,如改变图像中特定区域的动画、视频修复等。Lumiere的训练数据来源并未在论文中具体披露,但谷歌表示他们在包含3000万个视频及其文字说明的数据集上训练了T2V(文本到视频)模型。尽管人工智能生成的视频仍处于不断发展阶段,Lumiere似乎在视频合成技术的潮流中处于领先地位,尤其在处理动物在荒谬、不合理、虚拟场景中的视频方面表现突出。论文地址:https://arxiv.org/abs/2401.12945地址:https://lumiere-video.github.io/
2024-01-27 08:05:00 104
腾讯发布视频生成模型VideoCrafter2

腾讯发布视频生成模型VideoCrafter2

VideoCrafter2是由腾讯AI实验室团队开发的一款强大的视频处理工具,旨在克服数据限制,提供高质量的视频扩散模型。这项重要的创新旨在提升视频的视觉质量、动态效果以及概念组合。借助独特的算法和先进的技术,VideoCrafter2能够生成令人惊叹的精美影片,为影片制作带来崭新的可能性。功能亮点:视觉质量提升: 通过先进的图像处理技术,VideoCrafter2显著提高视频的视觉质量,使图像更为清晰、细腻。动态效果增强: 该工具不仅注重静态画面,还专注于提升视频中的动态效果,使得运动更加流畅自然。概念组合优化: VideoCrafter2在视频概念的组合方面表现出色,能够更好地整合不同元素,创造出更具深度和创意的影片。这款工具的实际效果已在由人类导演的影片中得到体现,为影片制作提供了全新的可能性。项目主页:https://ailab-cvc.github.io/videocrafter2论文地址:https://arxiv.org/pdf/2401.09084.pdfDemo地址:https://discord.gg/RQENrunu92
2024-01-22 15:32:57 164
阿里:发布高保真图像到视频生成新方法

阿里:发布高保真图像到视频生成新方法

阿里团队提出了一项创新性的技术,名为免调谐噪声校正(Tuning-Free Noise Rectification),适用于改善主流视频扩散模型的性能。该方法以实现高度保真的输出为目标,通过注入更准确的图像信息和进行噪声校正的方式来达到这一目标。具体来说,在给定特定图像的情况下,该方法首先向输入图像潜在地引入噪声,以保留更多细节,然后通过适当的校正对潜在噪声进行去噪,以减轻噪声预测偏差。此外,该方法的独特之处在于其无需任何额外调整即可直接应用。论文链接:https://noise-rectification.github.io/
2024-03-08 08:05:00 85
阿里发布肖像视频生成框架EMO

阿里发布肖像视频生成框架EMO

近期,阿里巴巴集团智能计算研究院推出的EMO(Emote Portrait Alive)技术引起广泛关注。EMO是一种音频驱动的肖像视频生成框架,被誉为“一种富有表现力的图片-音频-视频模型”。EMO的使用非常简便,只需提供一张照片和一段音频文件,即可在短时间内生成高度逼真的AI视频,最长时长可达1分30秒。通过EMO,不仅可以实现任意语音、语速与图像的一一对应,还能呈现出具有丰富表情和多种头部姿势的声音头像视频。以蔡徐坤的照片为例,结合其他音频,EMO能够“唱出”一首rapper饶舌,甚至口型几乎一模一样。技术原理上,EMO框架包含帧编码阶段、扩散过程阶段、去噪操作、注意力机制以及时间模块的使用。在帧编码阶段,通过ReferenceNet提取参考图像和运动帧中的特征。在扩散过程阶段,音频编码器处理音频嵌入,同时面部区域掩码与多帧噪声结合,引导面部图像生成。去噪操作通过Backbone Network实现,保证生成图像的质量和准确性。EMO内部应用Reference-Attention和Audio-Attention等注意力机制,以保持角色身份特征和调节角色动作。时间模块用于操纵时间维度,调整运动速度,使生成的视频更加自然流畅。EMO的主要特点包括高度自然与逼真的视频生成能力、身份一致性与视频生成的稳定性、以及灵活性与多样性。生成的视频不仅在视觉上吸引人,而且在动态展示上更加自然流畅。EMO还支持生成与输入音频长度相匹配的任意长度视频,展现了其对不同文化和艺术风格的广泛适应性。这一技术引领了AI在图像、音频和视频融合领域的新发展,不仅在B站鬼畜视频领域表现出色,同时也为用户提供了更加便捷、创意丰富的多媒体内容生成体验。阿里巴巴集团在智能计算领域的先进技术实力再次得到展现。EMO的应用前景广泛,尤其对于AI视频解说、AI动漫制作、短视频制作等应用场景,它都是一款妥妥的生产力工具。虽然项目尚未开源代码,但这一强大的音频驱动视频效果已经成为AI领域的一次重要进化。智东西报道指出,EMO在视频生成领域再次为国产AI模型树立了新的里程碑,让“开局一张图,后期可以全靠AI了”的设想成为现实。论文地址:https://arxiv.org/pdf/2402.17485.pdf项目主页:https://humanaigc.github.io/emote-portrait-alive/
2024-03-01 08:20:00 89
华为发布首个通信大模型

华为发布首个通信大模型

作者:崔爽来源:科技日报科技日报记者 崔爽记者从华为公司获悉,近日,华为在MWC24巴塞罗那期间发布通信行业首个大模型。据了解,针对行业提出的敏捷业务发放、精准用户体验保障、跨领域高效运维的高阶智能化目标,大模型提供基于角色和场景的智能化应用,助力运营商赋能员工、提升用户满意度,提升网络生产力。MWC24巴塞罗那期间,华为以“引领智能世界”为主题,探讨如何促进“网云智”协同创新,推动数智化转型深入发展,加速5G商业正循环,拥抱更繁荣的5G-A时代。同时,华为展示了全系列、全场景的5.5G产品解决方案,包括5G-A、F5G-A、Net5.5G等。MWC24巴塞罗那华为Hall1展区根据最新数据,截至2023年底,全球已有超过300张5G商用网络,超过16亿5G用户。5G进入高速发展期,全球5G用户增长速度是4G同期的7倍。在2023年全球知名机构测试中,华为在德国、奥地利、荷兰等重要城市助力运营商网络体验取得测试第一。据了解,截至目前,华为联合运营商客户在全球20多个城市启动5G-A商用验证和测试。在中东,5G-A已成产业共识,海湾阿拉伯国家合作委员会(GCC)六国均已完成5G-A 10Gbps速率验证以及RedCap(Reduced Capability,5G轻量化)和Passive IOT(无源物联网)等新业务孵化。中国内地,三大运营商已启动全国重点城市的5G-A网络部署,并全面开展联人、联物、联车、联行业、联家庭的五联业务探索;在中国香港,运营商完成C-band+毫米波的5G-A万兆测速验证,并启动发放5G-AFWA业务;在芬兰,运营商在商用网络上完成5G-A技术验证,实现超过10Gbps峰值速率和Passive IoT的技术验证;在德国,运营商通过6GHz多载波突破12Gbps峰值速率。2024是5G-A商用的元年,华为表示,将联手全球运营商积极探索向5G-A时代的演进,构建极致体验、高效协同、绿色低碳、高稳智能的泛在网络,推动数智化转型深入发展,引领智能世界加速到来。据悉,华为企业业务以“引领数智基础设施,加速行业智能化”为主题亮相MWC24巴塞罗那,发布十大行业数智化解决方案,以及系列旗舰产品。华为终端业务携一系列科技新品亮相,展现让科技进一步融入消费者生活、丰富场景化体验的追求,以创新技术打造丰富的个性化生活方式。(主办方供图)(本文来源科技日报,如有侵权请联系删除)
2024-02-29 09:00:00 75
社群
人工智能学堂 加入
扫描二维码
Glen 加入
扫描二维码