AINEWS

百度：发布视频生成模型UniVG -

百度最新推出的视频生成模型UniVG引起了广泛关注。UniVG的独特之处在于其能够接受文本和图像的各种组合作为输入，并通过重新定义视频生成模型中的任务，巧妙地划分为两大类别：高自由度生成和低自由度生成。对于高自由度生成，UniVG采用了先进的“多条件交叉注意力”技术，以确保生成的视频在语义上高度一致于输入的图像或文本。这种方法使用户能够更加灵活地进行输入，满足真实世界多变的应用需求。而对于低自由度生成，UniVG引入了“偏置高斯噪声”的创新方法，相较于传统的完全随机高斯噪声，更有效地保留了输入条件的原始内容。这使得在处理特定任务时，UniVG能够更精准地生成符合用户期望的视频内容。在技术性能方面，UniVG在MSR-VTT视频数据库上表现卓越，获得了最低的帧间视频差异性度量（FVD）。这一成绩不仅超越了当前的开源方法，还与业界领先的闭源方法Gen2不相上下，凸显了UniVG的卓越实用价值和技术优势。总体而言，百度UniVG的推出为视频生成技术带来了新的突破，为用户提供了更灵活、高效的输入方式，使得视频生成模型能够更好地适应不同应用场景的需求。项目主页：https://univg-baidu.github.io论文地址：https://arxiv.org/pdf/2401.09084.pdf

2024-01-24 08:56:40 116

零一万物：Yi-VL多模态语言模型上线

零一万物Yi系列模型家族最新迎来了备受期待的成员，Yi Vision Language（Yi-VL）多模态语言大模型正式开源，标志着零一万物在人工智能领域迈出了令人瞩目的一步。该模型以先进的Yi语言模型为基础，分为Yi-VL-34B和Yi-VL-6B两个版本，在全球范围内的多模态基准测试MMMU中取得卓越成绩，展现出在复杂任务上的引人注目的实力。MMMU数据集包含来自艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程六大核心学科的11500个问题，Yi-VL-34B以41.6%的准确率成功超越多个竞争对手，仅次于GPT-4V（55.7%）。这表明Yi-VL模型在跨学科知识理解和应用方面具备强大的潜力。而在针对中文场景的CMMMU数据集上，Yi-VL模型同样表现出色，展现了对中文多模态问题的独特优势。在这个包含大学考试、测验和教科书中文问题的测试集中，Yi-VL-34B以36.5%的准确率领先于当前最前沿的开源多模态模型，仅次于GPT-4V（43.7%）。Yi-VL模型的核心优势之一在于其基于Yi语言模型的强大文本理解能力。通过对图片进行对齐，该模型展现出卓越的多模态视觉语言表现，为用户提供更为丰富的体验。在架构设计上，Yi-VL模型采用了开源LLaVA架构，包括三个主要模块：Vision Transformer（ViT）、Projection模块以及Yi-34B-Chat和Yi-6B-Chat大规模语言模型。这些模块协同工作，为Yi-VL提供了处理和理解图像、文本信息的强大能力，从而提高了多模态理解和生成的准确度。Yi-VL模型的训练过程经过三个精心设计的阶段，包括使用1亿张“图像-文本”配对数据集训练ViT和Projection模块，提升图像分辨率以识别复杂的视觉细节，并最终开放整个模型的参数进行训练，以提高模型在多模态聊天互动中的表现。零一万物技术团队强调，Yi系列模型不仅可以作为多模态模型的基座语言模型，还可以通过其他多模态训练方法，如BLIP、Flamingo、EVA等，快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。目前，Yi-VL模型已在Hugging Face、ModelScope等平台上向公众开放，用户可通过链接亲身体验这一强大模型在图文对话等多元场景中的卓越表现。欢迎深入探索Yi-VL多模态语言模型的功能，感受前沿人工智能技术的魅力！Hugging Face地址：https://huggingface.co/01-aiModelScope 地址：https://www.modelscope.cn/organization/01ai

2024-01-24 08:08:29 87

北京获准开放AI大模型产品占全国近半

北京市第十六届人民代表大会第二次会议透露，2023年北京生成式人工智能大模型产品获准向公众开放的数量占全国近一半。市长殷勇在会议开幕式上作政府工作报告，报告中指出，北京市将巩固和提升高精尖产业发展优势，出台了30多项细分产业支持政策，其中涉及通用人工智能、人形机器人等领域。今年，北京市计划推动人工智能模型与国际先进水平对标，并加速在政务、医疗、工业和生活服务等领域的应用。生成式人工智能（生成式AI）大模型产品已获准向公众开放，占全国近一半份额。此外，“京通”、“京办”、“京智”三个智慧城市应用终端快速升级拓展，高级别自动驾驶示范区实现了160平方公里的连片运行，全国首个数据基础制度先行区也已启动建设，数字经济增加值占地区生产总值比重达42.9%。

2024-01-24 08:26:26 107

小红书多模态团队提出：可控脑视觉扩散模型（CMVDM）

小红书多模态团队在上个月AAAI 2024会议上提出的一项创新技术——可控脑视觉扩散模型（CMVDM）。这一模型展现出卓越的能力，能够将fMRI信号还原为与原始视觉刺激语义属性一致、空间结构对齐的高质量图片，从而生成更为清晰、更接近人眼所见的原始图像。具体而言，CMVDM首先运用属性对齐和辅助网络，从fMRI数据中提取语义和轮廓信息。随后，引入一个控制模型并结合残差块，充分利用提取的信息进行图像合成，生成与原始视觉刺激在语义内容和轮廓特征上高度相似的高质量图像。通过大量实验证明，CMVDM在可视化质量和技术指标上都超越了现有的最先进方法（SOTA）。此外，该团队还发现大脑的高级视觉皮层（HVC）主要关注视觉刺激的语义信息，而低级视觉皮层（LVC）则主要关注视觉刺激的结构信息。这一创新的研究成果为神经科学和计算机视觉领域带来了新的启示，为未来的多模态技术和脑-机接口研究提供了有力支持。

2024-01-25 18:22:50 112

腾讯研究院：影响2024年的十大科技应用趋势

腾讯研究院：影响2024年的十大科技应用趋势1、高性能计算的“四算聚变”；2、多模态智能体加速AGI进程；3、AI加速人形机器人“手、脑”进化；4、AI+基因计算解读生命密码；5、数字交互引擎激发超级数字场景；6、沉浸式媒体催生3D在场；7、脑机接口从医疗突破迈向交互革命；8、星地直连通信推动泛在网络覆盖；9、eVTOL加速空中出行奔赴新时代；10、多能流实时协同重塑虚拟电厂。

2024-01-26 14:26:07 85

上海AI实验室：开源发布书生·浦语数学大模型

上海人工智能实验室（上海AI实验室）最近发布了新一代数学模型书生·浦语数学（InternLM2-Math）。这是一项具有创新性的开源项目，InternLM2-Math成为首个同时支持形式化数学语言及解题过程评价的模型。基于书生·浦语2.0（InternLM2）的强大基础能力，InternLM2-Math以中轻量级参数规模在多项数学评测中刷新了开源模型数学能力的上限。与传统数学大模型应用相比，InternLM2-Math不仅具备“解题”能力，更能够进行“判题”。这一突破意味着该模型将为数学基础研究和教学提供更为优质的应用基础，超越了以往的局限。InternLM2-Math的代码和模型完全开源，同时支持免费商用，秉持“以高质量开源赋能创新”的理念。这一次发布的数学模型不仅仅关乎技术社区，更在全球数学大模型领域引起瞩目。数学能力一直是衡量大语言模型推理水平的重要体现。最近，谷歌 DeepMind 利用AI数学模型AlphaGeometry成功解答几何问题，其水平已经接近人类奥林匹克金牌得主，引起了广泛关注。虽然全球数学大模型领域研究取得了显著进展，但与顶尖人类水平相比仍存在一定差距。上海AI实验室将继续秉持开源开放理念，与全球研究人员合作，共同探索提升语言模型数学推理能力的路径。InternLM2-Math以其强大的内生计算和推理能力为技术社区提供了一种创新的数学工具和模型范式，为数学领域的发展注入了新的活力。开源地址：https://github.com/InternLM/InternLM-Mathhttps://huggingface.co/internlmhttps://modelscope.cn/organization/Shanghai_AI_Laboratory

2024-01-26 14:34:20 108

哄哄模拟器爆火，24小时用户达70万

谁还没有个会生气的女朋友呢？“哄哄模拟器”AI应用在短短的24小时内突然走红，吸引了70万用户，并消耗了10亿个令牌，成为当下备受关注的热门应用之一。该应用以其独特的玩法引起广泛讨论，要求用户通过巧妙的方式哄好他们的虚拟女友或男友，以获取原谅，并由应用对用户的哄好表现进行评分。在“哄哄模拟器”中，用户们纷纷展现出各种花样翻新的哄人技巧，这些技巧在QQ群和QQ空间中被积极分享，形成了一股独特的文化风潮。应用的开发者王登科透露，他开发这款应用的初衷源于他和女朋友的一次争吵，为了改善情感关系，他将女朋友想象成一个带有愤怒值进度条的机器人。不同的哄好回复会让愤怒值发生变化，这种趣味性的设计引起了用户的浓厚兴趣。随着用户们的热烈参与，这款应用在社交媒体上掀起了一波独特的互动热潮。不仅如此，不少用户还总结出一系列成功的哄人经验，形成了一份“哄人宝典”，在用户群体中广泛传播。对此，王登科表示欣慰，并表示将会不断更新应用，为用户提供更多有趣的互动元素。

2024-01-26 15:07:20 104

MIT研究论文：在绝大多数工作中人类比AI性价比高

麻省理工学院（MIT）和IBM的研究人员最近发表的一篇论文强调了一个重要观点：目前的人工智能尚不能以成本效益的方式取代大多数工作，而AI取代人类工作将是一个逐步演进的过程。研究结果表明，以当前成本计算，只有23%的视觉任务的工人工资可以被人工智能有效地替代；而在其他情况下，由于AI辅助视觉识别的安装和操作成本较高，人类完成这项工作更加经济。为了解决这一挑战，研究团队提出了一种创新的端到端AI任务自动化模型。该模型能够评估完成任务所需的技术性能水平，AI系统实现该性能的特征，以及是否构建和部署这样一个系统的经济选择。这一新方法旨在更全面地考虑人工智能在工作场景中的应用，特别是在涉及视觉任务的情况下，其中仅有一小部分工作可以被AI有效替代。这项研究的结论提醒我们，虽然人工智能的发展迅猛，但在实际应用中，我们仍然需要审慎评估成本效益，并逐步实现AI在工作中的渐进性替代。这不仅有助于确保经济可行性，还有助于最大程度地发挥人工智能在提高工作效率和质量方面的潜力。论文地址：https://futuretech-site.s3.us-east-2.amazonaws.com/2024-01-18+Beyond_AI_Exposure.pdf

2024-01-26 15:13:35 77

中国一汽和阿里云联合推出大模型应用GPT-BI

中国一汽与阿里云通义千问合作推出的大型模型应用GPT-BI正式启用，为中国一汽的数字化转型注入新的活力。这一应用具备接收自然语言查询的能力，并结合企业数据自动生成分析图表，目前的准确率已达近90%。相较于传统商业智能（BI）的“固定问答”，GPT-BI实现了问答的任意组合，实时穿透数据，实现了“问答即洞察”的效果。值得注意的是，GPT-BI不仅是中国一汽首个大型模型应用案例，也是汽车行业的首个大型模型BI应用。中国一汽正在积极探索“GPT+”大型模型创新范式，未来将利用阿里云百炼一站式大型模型应用开发平台，在基于GPT-BI等真实业务场景的实践中构建面向研发、制造、售后服务等多领域的垂直大型模型。与此同时，阿里云也在推动通义千问大型模型在不同行业，如航空、汽车等领域的应用落地。这一合作标志着中国一汽在数字化转型道路上迈出了重要的一步，为未来数据驱动决策和创新提供了有力支持。

2024-01-26 15:16:46 157

Meta和纽约大学联手：发布机器人框架OK-Robot

近期，Meta AI与纽约大学合作推出了一令人振奋的研究成果——OK-Robot，一款无需预训练即可在真实家庭环境中运行的开放知识机器人框架。该框架集成了在公开数据上训练的学习模型，通过视觉语言模型、导航基元和抓取基元的组合，实现了无培训的拾取和放下操作。在10个真实家庭环境的测试中，OK-Robot表现出色，成功率达到58.5%。在更整洁的环境中，成功率甚至提升至82%。实验结果强调了将开放知识系统与机器人模块合理组合的关键性，为开放词汇移动操作带来了新的水平。虽然家务机器人的发展多种多样，从会炒菜到做咖啡，但要走进千家万户仍存在挑战。灵活性不足、建筑样式复杂以及高昂的价格都是问题。然而，随着技术进步，家用机器人的普及不可避免。或许未来，我们将享受到更为人性化的家政服务，其中像OK-Robot这样的开放知识框架将发挥关键作用。项目地址：https://ok-robot.github.io论文：https://arxiv.org/abs/2401.12202

2024-01-27 08:00:00 111