AINEWS

美图与三星深度合作，打造AI图像编辑新体验

三星电子于今日成功举办了Galaxy S24系列中国新品发布会，与合作伙伴美图公司深化合作，为用户提供全新的AI图像编辑体验。美图公司携手自研的AI视觉大模型MiracleVision（奇想智能），为Galaxy S24系列用户提供云端解决方案，进一步提升了手机相册的生成式编辑功能。此前，双方已经成功合作推出了多项端侧功能，如“AI图生图”、“海报拼图”和“一键大片”等，为用户带来了更多创意和便捷的图像编辑选择。美图影像研究院（MT Lab）团队依托MiracleVision的强大模型能力与丰富的AI技术经验，为Galaxy S24系列的AI图像能力注入新的活力，使用户能够享受到更高效、便捷的图像创作体验。这次深化合作进一步巩固了双方在图像处理领域的伙伴关系，为用户提供了更为卓越的手机使用体验。

2024-01-29 22:49:16 153

通义千问：视觉理解模型Qwen-VL升级

阿里云最新宣布了通义千问视觉理解模型Qwen-VL的升级版本——Max版本。这一版本的模型在视觉推理和中文理解能力上得到了显著的加强，将多模态技术推向了一个新的高度。Qwen-VL Max版本不仅能够根据图片识别人物，回答问题，创作和编写代码，而且在多个权威测评中也获得了令人瞩目的成绩。这些成绩使得Qwen-VL Max版本与OpenAI的GPT-4V和谷歌的Gemini Ultra媲美，标志着大型语言模型领域的新一轮竞争的到来。近来，大型语言模型领域的研究重点逐渐从LLM（大语言模型）转向了多模态，而通义千问视觉理解模型Qwen-VL Max版本正是这一趋势的最新代表。在过去的半年中，OpenAI、谷歌等巨头相继推出了多模态模型，而阿里云在2023年8月发布并开源的Qwen-VL模型则引领了这一潮流。Qwen-VL不仅具备图文理解的能力，而且在同等规模通用模型中表现卓越，远超同期竞争对手。其升级版本Max的发布，进一步巩固了在多模态领域的领先地位，成为与GPT-4V和Gemini Ultra相匹敌的重要存在。在多模态模型的评价中，Qwen-VL Max版本的整体性能与GPT-4V和Gemini Ultra不相上下。在诸如MMMU、MathVista等领域的测评中，Qwen-VL Max版本甚至超越了所有开源模型，表现出色。在文档分析（DocVQA）和中文图像相关（MM-Bench-CN）等任务上，其表现更是达到了世界领先水平。这一系列的优异成绩使得Qwen-VL Max版本成为当前多模态大模型领域的焦点，引领着该领域的发展方向。

2024-01-29 22:41:02 125

腾讯文档智能助手开启公测

腾讯文档智能助手正式进入公测阶段，全方位应用于多种文档类型，包括Word、Excel、PPT、PDF、智能文档、收集表和思维导图等。这次公测标志着腾讯文档AI能力的全面升级，涵盖了文本内容的秒级处理、函数公式的运算应用、表格数据的精准呈现、PPT的快速生成与美化、收集结果的自动分析，以及思维导图的一键生成等多项功能。更为重要的是，这一智能助手支持跨不同文档类型的内容畅通流转，为用户提供更为便捷的文档处理体验。从即日起，腾讯文档智能助手将逐步向所有用户开放，让更多人能够亲身体验到其强大而多样化的功能。申请地址：https://docs.qq.com/form/page/DQnJoYkdBVWRCT0tS#/fill

2024-01-29 22:35:36 148

蚂蚁集团：成立AI创新部门NextEvo

蚂蚁集团内设立的AI创新研发与应用部门NextEvo，由蚂蚁集团副总裁徐鹏担任负责人，标志着该公司在人工智能领域的重大投入与布局。徐鹏作为部门负责人，曾在谷歌工作长达11年，期间主导了谷歌翻译的核心技术研发，并积极参与了谷歌显示广告系统的算法研发。这为NextEvo注入了丰富的国际经验和技术积累。NextEvo是蚂蚁集团内部的AI“精锐”团队，全面负责蚂蚁AI的核心技术研发，包括蚂蚁百灵大模型的全方位研发工作。在2023年，该部门发表了30余篇AI国际顶刊顶会论文，突显了其在学术研究方面的卓越成果。尤其值得一提的是，NextEvo推动的智能大规模分布式深度学习系统DLRover以及GPU显存+传输优化开源项目GLake，填补了国内在AI垂直领域技术开源的空白，为整个行业注入了新的活力。徐鹏的领导经验和在谷歌的技术背景，为NextEvo注入了强大的创新力和执行力。这不仅在技术研发方面取得了显著成就，同时也将对蚂蚁集团在人工智能领域的竞争力产生深远的影响。通过与国际顶尖水平的合作与开源项目的推动，NextEvo有望成为中国人工智能领域的引领者，推动整个行业的发展。

2024-01-28 09:00:00 102

Pika联手北大斯坦福开源文生图框架

北京大学、斯坦福大学与Pika实验室携手合作，在社交平台X上宣布了一项引人注目的项目——开源文本到图像生成/编辑框架RPG-DiffusionMaster。这一创新性的合作旨在提高扩散模型的提示词理解能力，使其在无需额外训练的情况下，能够更准确地理解超长、超复杂的提示词。与此同时，该框架在图像生成方面展现出了卓越的性能，超越了知名的Dall·E 3和SDXL模型。RPG-DiffusionMaster在上下文理解、组合语义对齐以及多轮对话理解等方面取得了显著的改进。用户可以轻松实现对于复杂提示词的要求，如左右冰火两重天，左边有冰山、右边有火山。相较于SDXL和Dall·E 3，RPG-DiffusionMaster在生成出符合提示词要求的图像方面表现更为出色，准确性更高，细节把控更为精准自然。通过这一前瞻性的合作，Pika实验室与北京大学、斯坦福大学共同推动了文本到图像生成技术的发展，为深度学习领域的研究和应用开辟了新的可能性。论文地址：https://github.com/YangLing0818/RPG-DiffusionMaster

2024-01-28 08:03:00 128

微信AI：官宣对话开放平台新进展

在2024年1月11日的微信公开课上，微信AI团队向大家展示了微信对话开放平台的最新进展，同时推出了一款全新的桌面效率工具——小微助手。微信对话开放平台的目标是协助开发者和商家迅速搭建零成本、低门槛的对话机器人，以满足他们多样化的业务需求。这个平台不仅能够满足开发者和商家的需求，而且提供了强大的工具和资源，使他们能够更轻松地构建符合自身业务需求的对话机器人。

2024-01-28 08:00:00 142

谷歌：发布AI视频生成模型Lumiere

最新发布的视频生成模型——Lumiere，由谷歌推出，展示了卓越的视频生成和编辑能力。该模型采用了创新的空间-时间 U-Net 架构，通过一次传递即可生成完整视频，与传统模型的方法有所不同，后者通常需要先合成远距离关键帧，再进行时间超分辨率处理，以实现全局时间一致性。尽管Lumiere的视频输出被描述为“低分辨率”，分辨率为1024×1024像素，长度为仅5秒，但在用户研究中，其受欢迎程度超过了目前现有的AI视频合成模型。该模型在从书面提示生成视频、将静止图像转换为视频、生成特定风格的视频等方面表现卓越，同时还提供了一系列有趣的功能，如改变图像中特定区域的动画、视频修复等。Lumiere的训练数据来源并未在论文中具体披露，但谷歌表示他们在包含3000万个视频及其文字说明的数据集上训练了T2V（文本到视频）模型。尽管人工智能生成的视频仍处于不断发展阶段，Lumiere似乎在视频合成技术的潮流中处于领先地位，尤其在处理动物在荒谬、不合理、虚拟场景中的视频方面表现突出。论文地址：https://arxiv.org/abs/2401.12945地址：https://lumiere-video.github.io/

2024-01-27 08:05:00 104

Meta和纽约大学联手：发布机器人框架OK-Robot

近期，Meta AI与纽约大学合作推出了一令人振奋的研究成果——OK-Robot，一款无需预训练即可在真实家庭环境中运行的开放知识机器人框架。该框架集成了在公开数据上训练的学习模型，通过视觉语言模型、导航基元和抓取基元的组合，实现了无培训的拾取和放下操作。在10个真实家庭环境的测试中，OK-Robot表现出色，成功率达到58.5%。在更整洁的环境中，成功率甚至提升至82%。实验结果强调了将开放知识系统与机器人模块合理组合的关键性，为开放词汇移动操作带来了新的水平。虽然家务机器人的发展多种多样，从会炒菜到做咖啡，但要走进千家万户仍存在挑战。灵活性不足、建筑样式复杂以及高昂的价格都是问题。然而，随着技术进步，家用机器人的普及不可避免。或许未来，我们将享受到更为人性化的家政服务，其中像OK-Robot这样的开放知识框架将发挥关键作用。项目地址：https://ok-robot.github.io论文：https://arxiv.org/abs/2401.12202

2024-01-27 08:00:00 111

甲骨文推出OCI生成式AI服务

甲骨文公司最新推出的OCI Generative AI服务标志着其在云基础设施领域的创新动力。这项全面托管的服务专为解决各种业务用例而设计，与Cohere和Meta Llama 2等大型语言模型实现了无缝集成，为企业提供了强大的生成式AI功能。新服务以其完全托管和云托管的特性而脱颖而出，使企业能够轻松将其整合到现有系统中。甲骨文公司强调OCI Generative AI服务的推出是其云基础设施功能的进一步提升，以满足客户在人工智能领域日益增长的需求。OCI Generative AI服务的设计目标是解决实际业务用例中的各种问题，为用户提供高度灵活和实用的AI解决方案。这一创新举措突显了甲骨文公司对于AI技术的持续关注和投入，彰显了其在人工智能领域的领导地位。这一战略举措巩固了甲骨文在AI领域的地位，为客户提供了更多选择和解决方案。OCI Generative AI服务的推出不仅提高了甲骨文的云基础设施功能，同时也体现了该公司满足客户需求、保持技术领先地位的坚定承诺。

2024-01-27 08:00:00 131

中国一汽和阿里云联合推出大模型应用GPT-BI

中国一汽与阿里云通义千问合作推出的大型模型应用GPT-BI正式启用，为中国一汽的数字化转型注入新的活力。这一应用具备接收自然语言查询的能力，并结合企业数据自动生成分析图表，目前的准确率已达近90%。相较于传统商业智能（BI）的“固定问答”，GPT-BI实现了问答的任意组合，实时穿透数据，实现了“问答即洞察”的效果。值得注意的是，GPT-BI不仅是中国一汽首个大型模型应用案例，也是汽车行业的首个大型模型BI应用。中国一汽正在积极探索“GPT+”大型模型创新范式，未来将利用阿里云百炼一站式大型模型应用开发平台，在基于GPT-BI等真实业务场景的实践中构建面向研发、制造、售后服务等多领域的垂直大型模型。与此同时，阿里云也在推动通义千问大型模型在不同行业，如航空、汽车等领域的应用落地。这一合作标志着中国一汽在数字化转型道路上迈出了重要的一步，为未来数据驱动决策和创新提供了有力支持。

2024-01-26 15:16:46 157