AINEWS

MIT研究论文：在绝大多数工作中人类比AI性价比高

麻省理工学院（MIT）和IBM的研究人员最近发表的一篇论文强调了一个重要观点：目前的人工智能尚不能以成本效益的方式取代大多数工作，而AI取代人类工作将是一个逐步演进的过程。研究结果表明，以当前成本计算，只有23%的视觉任务的工人工资可以被人工智能有效地替代；而在其他情况下，由于AI辅助视觉识别的安装和操作成本较高，人类完成这项工作更加经济。为了解决这一挑战，研究团队提出了一种创新的端到端AI任务自动化模型。该模型能够评估完成任务所需的技术性能水平，AI系统实现该性能的特征，以及是否构建和部署这样一个系统的经济选择。这一新方法旨在更全面地考虑人工智能在工作场景中的应用，特别是在涉及视觉任务的情况下，其中仅有一小部分工作可以被AI有效替代。这项研究的结论提醒我们，虽然人工智能的发展迅猛，但在实际应用中，我们仍然需要审慎评估成本效益，并逐步实现AI在工作中的渐进性替代。这不仅有助于确保经济可行性，还有助于最大程度地发挥人工智能在提高工作效率和质量方面的潜力。论文地址：https://futuretech-site.s3.us-east-2.amazonaws.com/2024-01-18+Beyond_AI_Exposure.pdf

2024-01-26 15:13:35 65

哄哄模拟器爆火，24小时用户达70万

谁还没有个会生气的女朋友呢？“哄哄模拟器”AI应用在短短的24小时内突然走红，吸引了70万用户，并消耗了10亿个令牌，成为当下备受关注的热门应用之一。该应用以其独特的玩法引起广泛讨论，要求用户通过巧妙的方式哄好他们的虚拟女友或男友，以获取原谅，并由应用对用户的哄好表现进行评分。在“哄哄模拟器”中，用户们纷纷展现出各种花样翻新的哄人技巧，这些技巧在QQ群和QQ空间中被积极分享，形成了一股独特的文化风潮。应用的开发者王登科透露，他开发这款应用的初衷源于他和女朋友的一次争吵，为了改善情感关系，他将女朋友想象成一个带有愤怒值进度条的机器人。不同的哄好回复会让愤怒值发生变化，这种趣味性的设计引起了用户的浓厚兴趣。随着用户们的热烈参与，这款应用在社交媒体上掀起了一波独特的互动热潮。不仅如此，不少用户还总结出一系列成功的哄人经验，形成了一份“哄人宝典”，在用户群体中广泛传播。对此，王登科表示欣慰，并表示将会不断更新应用，为用户提供更多有趣的互动元素。

2024-01-26 15:07:20 94

上海AI实验室：开源发布书生·浦语数学大模型

上海人工智能实验室（上海AI实验室）最近发布了新一代数学模型书生·浦语数学（InternLM2-Math）。这是一项具有创新性的开源项目，InternLM2-Math成为首个同时支持形式化数学语言及解题过程评价的模型。基于书生·浦语2.0（InternLM2）的强大基础能力，InternLM2-Math以中轻量级参数规模在多项数学评测中刷新了开源模型数学能力的上限。与传统数学大模型应用相比，InternLM2-Math不仅具备“解题”能力，更能够进行“判题”。这一突破意味着该模型将为数学基础研究和教学提供更为优质的应用基础，超越了以往的局限。InternLM2-Math的代码和模型完全开源，同时支持免费商用，秉持“以高质量开源赋能创新”的理念。这一次发布的数学模型不仅仅关乎技术社区，更在全球数学大模型领域引起瞩目。数学能力一直是衡量大语言模型推理水平的重要体现。最近，谷歌 DeepMind 利用AI数学模型AlphaGeometry成功解答几何问题，其水平已经接近人类奥林匹克金牌得主，引起了广泛关注。虽然全球数学大模型领域研究取得了显著进展，但与顶尖人类水平相比仍存在一定差距。上海AI实验室将继续秉持开源开放理念，与全球研究人员合作，共同探索提升语言模型数学推理能力的路径。InternLM2-Math以其强大的内生计算和推理能力为技术社区提供了一种创新的数学工具和模型范式，为数学领域的发展注入了新的活力。开源地址：https://github.com/InternLM/InternLM-Mathhttps://huggingface.co/internlmhttps://modelscope.cn/organization/Shanghai_AI_Laboratory

2024-01-26 14:34:20 96

腾讯研究院：影响2024年的十大科技应用趋势

腾讯研究院：影响2024年的十大科技应用趋势1、高性能计算的“四算聚变”；2、多模态智能体加速AGI进程；3、AI加速人形机器人“手、脑”进化；4、AI+基因计算解读生命密码；5、数字交互引擎激发超级数字场景；6、沉浸式媒体催生3D在场；7、脑机接口从医疗突破迈向交互革命；8、星地直连通信推动泛在网络覆盖；9、eVTOL加速空中出行奔赴新时代；10、多能流实时协同重塑虚拟电厂。

2024-01-26 14:26:07 74

小红书多模态团队提出：可控脑视觉扩散模型（CMVDM）

小红书多模态团队在上个月AAAI 2024会议上提出的一项创新技术——可控脑视觉扩散模型（CMVDM）。这一模型展现出卓越的能力，能够将fMRI信号还原为与原始视觉刺激语义属性一致、空间结构对齐的高质量图片，从而生成更为清晰、更接近人眼所见的原始图像。具体而言，CMVDM首先运用属性对齐和辅助网络，从fMRI数据中提取语义和轮廓信息。随后，引入一个控制模型并结合残差块，充分利用提取的信息进行图像合成，生成与原始视觉刺激在语义内容和轮廓特征上高度相似的高质量图像。通过大量实验证明，CMVDM在可视化质量和技术指标上都超越了现有的最先进方法（SOTA）。此外，该团队还发现大脑的高级视觉皮层（HVC）主要关注视觉刺激的语义信息，而低级视觉皮层（LVC）则主要关注视觉刺激的结构信息。这一创新的研究成果为神经科学和计算机视觉领域带来了新的启示，为未来的多模态技术和脑-机接口研究提供了有力支持。

2024-01-25 18:22:50 94

百度：发布视频生成模型UniVG -

百度最新推出的视频生成模型UniVG引起了广泛关注。UniVG的独特之处在于其能够接受文本和图像的各种组合作为输入，并通过重新定义视频生成模型中的任务，巧妙地划分为两大类别：高自由度生成和低自由度生成。对于高自由度生成，UniVG采用了先进的“多条件交叉注意力”技术，以确保生成的视频在语义上高度一致于输入的图像或文本。这种方法使用户能够更加灵活地进行输入，满足真实世界多变的应用需求。而对于低自由度生成，UniVG引入了“偏置高斯噪声”的创新方法，相较于传统的完全随机高斯噪声，更有效地保留了输入条件的原始内容。这使得在处理特定任务时，UniVG能够更精准地生成符合用户期望的视频内容。在技术性能方面，UniVG在MSR-VTT视频数据库上表现卓越，获得了最低的帧间视频差异性度量（FVD）。这一成绩不仅超越了当前的开源方法，还与业界领先的闭源方法Gen2不相上下，凸显了UniVG的卓越实用价值和技术优势。总体而言，百度UniVG的推出为视频生成技术带来了新的突破，为用户提供了更灵活、高效的输入方式，使得视频生成模型能够更好地适应不同应用场景的需求。项目主页：https://univg-baidu.github.io论文地址：https://arxiv.org/pdf/2401.09084.pdf

2024-01-24 08:56:40 105

位置感知视觉识别Vision Mamba新模型发布

华中科技大学、地平线以及智源研究院的研究人员最近在视觉领域取得了重要突破，他们提出了一项名为Vision Mamba（Vim）的创新模型。该模型已在arXiv上发布相关研究论文，详细介绍了Vision Mamba块的设计和性能。Vision Mamba集成了双向SSM，以实现对数据依赖的全局视觉上下文建模，并通过位置嵌入实现位置感知的视觉识别。在具体应用中，当将Vim应用于分辨率为1248×1248的图像进行批量推理时，与成熟的视觉Transformer模型DeiT相比，Vim表现更为卓越。其速度提升了2.8倍，同时还节省了86.8%的GPU内存。这意味着Vim在处理大规模高分辨率图像时不仅具备更高的性能，还能更高效地利用计算资源。此外，对于 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务等多个任务，Vim在性能上均实现了显著提高。在与DeiT等成熟的视觉Transformers相比时，Vim不仅加速了任务执行，而且更加高效地利用计算和内存资源。这一结果进一步印证了Vim在视觉领域具有潜在的广泛应用前景，有望成为下一代视觉基础模型的重要候选。项目主页：https://github.com/hustvl/Vim论文地址：https://arxiv.org/pdf/2401.09417.pdf

2024-01-24 08:49:00 110

夸克App上线“元知”、“听记”等AI应用

夸克App在1月19日进行了全面升级，充分发挥其自主研发的大型模型能力，推出了多项功能板块和智能工具，为用户提供更全面、智能的服务体验。这次升级引入了名为“元知”的搜索问答产品，该产品汇聚了全网优质内容，用户可以在搜索结果中查看AIGC总结提炼出的回答，包括图文、视频等多种形式，以协助用户更加便捷高效地获取信息。除了搜索问答产品“元知”外，夸克还推出了夸克PC版和夸克听记等新产品。夸克PC版整合了搜索、网盘、扫描等核心功能，为办公和学习用户提供更佳的大屏幕搜索体验。同时，夸克听记助力用户高效进行音视频内容整理，支持多种语言和方言，语音笔记可以在夸克多端中同步保存。夸克网盘也得到了升级，在其中用户可以利用AI自然语言搜索功能，只需输入简单描述词就能快速找到照片、图片、文档等资料。此外，夸克网盘播放器还具备自动生成AI字幕的功能，实现视频转文字以及导出视频中的PPT。总体而言，夸克致力于打造三端一体的AI信息服务体验，以智能助手为中心，为用户提供涵盖“内容产品+智能工具”的服务矩阵。这一全面升级旨在满足用户在不同场景中的搜索需求，为用户带来全新的交互体验。

2024-01-24 08:37:20 97

北京获准开放AI大模型产品占全国近半

北京市第十六届人民代表大会第二次会议透露，2023年北京生成式人工智能大模型产品获准向公众开放的数量占全国近一半。市长殷勇在会议开幕式上作政府工作报告，报告中指出，北京市将巩固和提升高精尖产业发展优势，出台了30多项细分产业支持政策，其中涉及通用人工智能、人形机器人等领域。今年，北京市计划推动人工智能模型与国际先进水平对标，并加速在政务、医疗、工业和生活服务等领域的应用。生成式人工智能（生成式AI）大模型产品已获准向公众开放，占全国近一半份额。此外，“京通”、“京办”、“京智”三个智慧城市应用终端快速升级拓展，高级别自动驾驶示范区实现了160平方公里的连片运行，全国首个数据基础制度先行区也已启动建设，数字经济增加值占地区生产总值比重达42.9%。

2024-01-24 08:26:26 96

零一万物：Yi-VL多模态语言模型上线

零一万物Yi系列模型家族最新迎来了备受期待的成员，Yi Vision Language（Yi-VL）多模态语言大模型正式开源，标志着零一万物在人工智能领域迈出了令人瞩目的一步。该模型以先进的Yi语言模型为基础，分为Yi-VL-34B和Yi-VL-6B两个版本，在全球范围内的多模态基准测试MMMU中取得卓越成绩，展现出在复杂任务上的引人注目的实力。MMMU数据集包含来自艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程六大核心学科的11500个问题，Yi-VL-34B以41.6%的准确率成功超越多个竞争对手，仅次于GPT-4V（55.7%）。这表明Yi-VL模型在跨学科知识理解和应用方面具备强大的潜力。而在针对中文场景的CMMMU数据集上，Yi-VL模型同样表现出色，展现了对中文多模态问题的独特优势。在这个包含大学考试、测验和教科书中文问题的测试集中，Yi-VL-34B以36.5%的准确率领先于当前最前沿的开源多模态模型，仅次于GPT-4V（43.7%）。Yi-VL模型的核心优势之一在于其基于Yi语言模型的强大文本理解能力。通过对图片进行对齐，该模型展现出卓越的多模态视觉语言表现，为用户提供更为丰富的体验。在架构设计上，Yi-VL模型采用了开源LLaVA架构，包括三个主要模块：Vision Transformer（ViT）、Projection模块以及Yi-34B-Chat和Yi-6B-Chat大规模语言模型。这些模块协同工作，为Yi-VL提供了处理和理解图像、文本信息的强大能力，从而提高了多模态理解和生成的准确度。Yi-VL模型的训练过程经过三个精心设计的阶段，包括使用1亿张“图像-文本”配对数据集训练ViT和Projection模块，提升图像分辨率以识别复杂的视觉细节，并最终开放整个模型的参数进行训练，以提高模型在多模态聊天互动中的表现。零一万物技术团队强调，Yi系列模型不仅可以作为多模态模型的基座语言模型，还可以通过其他多模态训练方法，如BLIP、Flamingo、EVA等，快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。目前，Yi-VL模型已在Hugging Face、ModelScope等平台上向公众开放，用户可通过链接亲身体验这一强大模型在图文对话等多元场景中的卓越表现。欢迎深入探索Yi-VL多模态语言模型的功能，感受前沿人工智能技术的魅力！Hugging Face地址：https://huggingface.co/01-aiModelScope 地址：https://www.modelscope.cn/organization/01ai

2024-01-24 08:08:29 75

MIT研究论文：在绝大多数工作中 人类比AI性价比高