位置感知视觉识别Vision Mamba新模型发布

AIINNEWS 2024-01-24 08:49:00 133

华中科技大学、地平线以及智源研究院的研究人员最近在视觉领域取得了重要突破,他们提出了一项名为Vision Mamba(Vim)的创新模型。该模型已在arXiv上发布相关研究论文,详细介绍了Vision Mamba块的设计和性能。Vision Mamba集成了双向SSM,以实现对数据依赖的全局视觉上下文建模,并通过位置嵌入实现位置感知的视觉识别。

在具体应用中,当将Vim应用于分辨率为1248×1248的图像进行批量推理时,与成熟的视觉Transformer模型DeiT相比,Vim表现更为卓越。其速度提升了2.8倍,同时还节省了86.8%的GPU内存。这意味着Vim在处理大规模高分辨率图像时不仅具备更高的性能,还能更高效地利用计算资源。

此外,对于 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务等多个任务,Vim在性能上均实现了显著提高。在与DeiT等成熟的视觉Transformers相比时,Vim不仅加速了任务执行,而且更加高效地利用计算和内存资源。这一结果进一步印证了Vim在视觉领域具有潜在的广泛应用前景,有望成为下一代视觉基础模型的重要候选。

项目主页:https://github.com/hustvl/Vim

论文地址:https://arxiv.org/pdf/2401.09417.pdf

相关资讯
最新资讯
最新问答
文生图大模型Stable Diffusion 3论文发布

文生图大模型Stable Diffusion 3论文发布

稳定扩散3技术发布:Stability AI引领文本-图像生成创新在最新的技术突破中,Stability AI发布了其引领文本-图像生成领域的最新力作——稳定扩散3。本次发布的研究论文详细揭示了支持这一技术创新的底层技术细节。稳定扩散3的表现超越了同类文本到图像生成系统,例如DALL·E 3、Midjourney v6和Ideogram v1,尤其在排版和提示依从性方面,通过人类偏好评估取得了显著的优势。Stability AI采用了全新的Multimodal Diffusion Transformer(MMDiT)架构,为图像和语言表示分别使用了独立的权重集合,从而在文本理解和拼写能力方面迈出了坚实的一步。在早前宣布稳定扩散3早期预览后,如今Stability AI发布了详细的研究论文,该论文将很快在arXiv上公开,并邀请各界人士加入等待列表,参与到这一技术的早期预览中。性能卓越以稳定扩散3为基准,Stability AI通过人类评估制作了一份详细的图表,清晰地展示了该技术在视觉美学、提示遵循和排版等方面相对竞品的优势。通过与其他开源和封闭系统进行对比,稳定扩散3在“提示遵循”、“排版”和“视觉美学”等方面均取得了出色的表现。技术创新解析为了实现文本到图像的生成,Stability AI采用了MMDiT架构,该架构能够处理文本和图像的多种模态。独立的权重集合为文本和图像表示赋能,提高了整体理解和生成能力。灵活性与性能的完美融合稳定扩散3不仅在提示遵循方面取得了显著进展,使得模型能够创造关注各种主题和品质的图像,同时保持图像风格的高度灵活性。技术细节深挖通过采用修正流(RF)公式,稳定扩散3实现了数据和噪声在线性轨迹上的连接,从而创造了更为直线的推断路径,减少了采样步骤。同时,引入新的轨迹采样计划,更加注重轨迹中部分的权重,提高了模型对更具挑战性的预测任务的适应能力。未来发展的趋势通过对文本到图像合成的缩放研究,Stability AI展示了对模型规模和训练步骤的灵活适应性。验证损失的平滑下降趋势与自动图像对齐度量(GenEval)和人类偏好评分(ELO)之间呈现出强烈的相关性,预示着未来模型性能的不断提升。Stability AI的稳定扩散3技术的发布标志着文本-图像生成领域的一次创新飞跃。通过独特的技术架构和性能卓越,Stability AI展示了其在人工智能领域的引领地位。随着更多的应用场景的探索,我们有理由期待,Stability AI将在未来为人工智能技术带来更多令人振奋的突破。论文地址:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
2024-03-07 08:05:00 82
Meta:计划7月发新模型Llama 3

Meta:计划7月发新模型Llama 3

最新消息透露,Meta计划于今年7月发布其最新的人工智能大型语言模型——Llama 3。这一计划引起了广泛关注,因为Llama 3备受期待,有望在人工智能领域取得重大突破。根据知情人士透露,Meta希望Llama 3能够在多模态处理方面与OpenAI的GPT-4媲美,后者已经以其强大的多模态能力成为业内翘楚。然而,目前Llama 3是否为多模态模型的决定尚未最终敲定,因为研究人员尚未开始对模型进行微调。微调是为现有模型提供额外数据的过程,有助于大模型学习新信息或执行新任务。Llama 3预计将拥有超过1400亿个参数,较去年7月发布的Llama 2的700亿个参数规模更为庞大。然而,与业界巨头GPT-4相比,Llama 3的参数规模仍不到其十分之一,因为GPT-4的参数规模约为1.8万亿。此外,Meta公司在推出Llama 3之前正致力于解决Llama 2中的一个问题——即无法处理有争议问题。由于安全护栏的存在,Llama 2在处理一系列有争议问题时会拒绝回答,被认为“过于安全”。为此,研究人员计划放宽Llama 3在这方面的限制,使其更具互动性,能够为用户提供更多背景信息,而非仅仅拒绝回答。与此同时,Meta还在加强对Llama 3的安全工作,尤其是在处理有争议问题时提供更多上下文。最新的模型预计能够更好地回答用户提出的有争议问题,从而提升Meta在人工智能领域的实用性,保持领先地位。尽管人们对Llama 3寄予厚望,但Meta仍然面临人才竞争的挑战。近期,负责Llama 2和Llama 3安全工作的研究员Louis Martin以及强化学习负责人Kevin Stone相继离职,这对Meta而言是一次不小的挑战。然而,随着Llama 3的发布日期临近,业界对于这一重要创新的期待也在不断升温。
2024-03-04 08:05:00 59
腾讯发布视频生成模型VideoCrafter2

腾讯发布视频生成模型VideoCrafter2

VideoCrafter2是由腾讯AI实验室团队开发的一款强大的视频处理工具,旨在克服数据限制,提供高质量的视频扩散模型。这项重要的创新旨在提升视频的视觉质量、动态效果以及概念组合。借助独特的算法和先进的技术,VideoCrafter2能够生成令人惊叹的精美影片,为影片制作带来崭新的可能性。功能亮点:视觉质量提升: 通过先进的图像处理技术,VideoCrafter2显著提高视频的视觉质量,使图像更为清晰、细腻。动态效果增强: 该工具不仅注重静态画面,还专注于提升视频中的动态效果,使得运动更加流畅自然。概念组合优化: VideoCrafter2在视频概念的组合方面表现出色,能够更好地整合不同元素,创造出更具深度和创意的影片。这款工具的实际效果已在由人类导演的影片中得到体现,为影片制作提供了全新的可能性。项目主页:https://ailab-cvc.github.io/videocrafter2论文地址:https://arxiv.org/pdf/2401.09084.pdfDemo地址:https://discord.gg/RQENrunu92
2024-01-22 15:32:57 164
华为发布首个通信大模型

华为发布首个通信大模型

作者:崔爽来源:科技日报科技日报记者 崔爽记者从华为公司获悉,近日,华为在MWC24巴塞罗那期间发布通信行业首个大模型。据了解,针对行业提出的敏捷业务发放、精准用户体验保障、跨领域高效运维的高阶智能化目标,大模型提供基于角色和场景的智能化应用,助力运营商赋能员工、提升用户满意度,提升网络生产力。MWC24巴塞罗那期间,华为以“引领智能世界”为主题,探讨如何促进“网云智”协同创新,推动数智化转型深入发展,加速5G商业正循环,拥抱更繁荣的5G-A时代。同时,华为展示了全系列、全场景的5.5G产品解决方案,包括5G-A、F5G-A、Net5.5G等。MWC24巴塞罗那华为Hall1展区根据最新数据,截至2023年底,全球已有超过300张5G商用网络,超过16亿5G用户。5G进入高速发展期,全球5G用户增长速度是4G同期的7倍。在2023年全球知名机构测试中,华为在德国、奥地利、荷兰等重要城市助力运营商网络体验取得测试第一。据了解,截至目前,华为联合运营商客户在全球20多个城市启动5G-A商用验证和测试。在中东,5G-A已成产业共识,海湾阿拉伯国家合作委员会(GCC)六国均已完成5G-A 10Gbps速率验证以及RedCap(Reduced Capability,5G轻量化)和Passive IOT(无源物联网)等新业务孵化。中国内地,三大运营商已启动全国重点城市的5G-A网络部署,并全面开展联人、联物、联车、联行业、联家庭的五联业务探索;在中国香港,运营商完成C-band+毫米波的5G-A万兆测速验证,并启动发放5G-AFWA业务;在芬兰,运营商在商用网络上完成5G-A技术验证,实现超过10Gbps峰值速率和Passive IoT的技术验证;在德国,运营商通过6GHz多载波突破12Gbps峰值速率。2024是5G-A商用的元年,华为表示,将联手全球运营商积极探索向5G-A时代的演进,构建极致体验、高效协同、绿色低碳、高稳智能的泛在网络,推动数智化转型深入发展,引领智能世界加速到来。据悉,华为企业业务以“引领数智基础设施,加速行业智能化”为主题亮相MWC24巴塞罗那,发布十大行业数智化解决方案,以及系列旗舰产品。华为终端业务携一系列科技新品亮相,展现让科技进一步融入消费者生活、丰富场景化体验的追求,以创新技术打造丰富的个性化生活方式。(主办方供图)(本文来源科技日报,如有侵权请联系删除)
2024-02-29 09:00:00 75
Mac专属大模型框架上线

Mac专属大模型框架上线

Mac用户如今迎来了一款专为他们设计的强大模型框架——Chat with MLX。这一框架由前OpenAI员工精心开发,旨在为苹果电脑用户提供便捷的本地大模型体验。不仅如此,Chat with MLX不仅融合了多项功能,包括本地文档总结和YouTube视频分析等,而且支持11种语言,涵盖中文、英语和法语等,满足多元用户的需求。Chat with MLX的部署十分简便,仅需两行代码即可搞定。用户可轻松与本地数据进行交互,直接上传数据进行索引,或者选择使用现有模型进行对话。这一特性不仅确保了数据的安全性,而且解除了用户对数据泄露等问题的顾虑。值得强调的是,Chat with MLX还支持HuggingFace和MLX的开源模型,用户能够轻松整合这些模型,扩展框架的功能。在使用过程中,用户只需在终端中输入相应命令,即可完成初始化并加载模型。尽管在苹果设备上部署本地大模型可能带来一些计算负担,但Chat with MLX的设计使得即便是初学者也能轻松上手,使用体验十分良好。除了提供基础功能外,Chat with MLX还支持本地RAG检索,使用户能够更深度地与模型互动。通过测试发现,在使用本地文档进行查询时,框架能够相当准确地回答问题,尽管速度可能稍慢。但作者团队一直在不断优化模型,引入新的提示词技巧,以提高模型的性能表现。Chat with MLX的推出不仅使Mac用户能够享受到本地大模型的便捷和乐趣,也预示着本地化、专属化大模型正逐渐向消费级产品普及。这一趋势展示了大模型领域的巨大潜力和发展前景,为未来的科技创新打开了无限的可能性。综上所述,Chat with MLX为Mac用户提供了一个强大而易用的本地大型模型框架。不仅集成了多项功能,还支持多种语言和开源模型,使用户能够更深度地与模型互动。随着大模型领域的不断发展,我们有理由相信,Chat with MLX将为用户带来更多惊喜和便利。GitHub地址:https://github.com/qnguyen3/chat-with-mlx
2024-03-06 08:00:00 62
社群
人工智能学堂 加入
扫描二维码
Glen 加入
扫描二维码