AINEWS

微软正测试Copilot GPT新功能

微软副总裁兼Copilot和必应工程与产品负责人约尔迪·里巴斯（Jordi Ribas）今天透露，微软正在测试名为Copilot GPT的新功能。用户在打开Microsoft Copilot时会看到一个新的Copilot GPT列表，这个功能将提供健身训练计划、假期规划以及烹饪帮助等服务。原文：我们在Microsoft Copilot中推出了几个Copilot GPT。它们可以帮助创建设计，规划您的下一个假期，学习烹饪新食谱，或制定定制的锻炼计划。GPTs利用提示中的上下文指令和领域信息作为基础数据的一部分。

2024-02-29 10:10:00 68

微软与Mistral AI达成合作

法国生成式AI公司Mistral AI最近发布了Mistral Large，被誉为「欧洲OpenAI」。这一先进的文本生成模型展现出卓越的推理能力，能够处理复杂的多语言推理任务，如文本理解、转换和代码生成等。在多项基准测试中，Mistral Large表现出色，全球排名第二，仅次于GPT-4，成为API广泛使用的顶级模型。Mistral Large目前已经成功集成到Mistral AI的聊天机器人Le Chat中，并在La Plateforme和Azure平台上可用。微软宣布与Mistral AI建立长期合作伙伴关系，共同开发新的商业机会，并通过Azure AI超级计算基础设施支持Mistral AI的大型模型训练和推理工作。这一合作涵盖多个领域，双方将共同探索为特定客户定制特定目的模型的合作。此外，微软和Mistral AI还计划通过Azure AI Studio和Azure机器学习模型目录中的模型即服务（MaaS）向客户提供Mistral AI的高级模型。他们将共同探索为特定客户提供定制模型的可能性。这一合作使Mistral成为继OpenAI之后，在微软Azure云平台上提供商用语言模型的第二家公司，为用户提供更广泛、更强大的人工智能解决方案。

2024-02-29 09:00:00 73

苹果放弃造车：雷军震惊，李想说是正确战略选择

本文转自【澎湃新闻】车企掌门人纷纷回应苹果放弃造车。2月28日凌晨，知名科技记者马克·古尔曼抛出一记重磅“炸弹”：苹果公司决定放弃投入十多年的造车项目，部分员工将被转入人工智能部门。多家外媒报道了此事并对此评价说，苹果造车梦碎也意味着苹果与特斯拉的对决就此结束。特斯拉CEO埃隆·马斯克在旗下社交媒体X上转发了苹果停止造车的消息，并配上了敬礼和抽烟两个表情。随后，特斯拉投资人Sawyer Merritt发帖分析了苹果放弃造车的原因，并表示美国只有两家车企从未破产过，一家是福特，另一家是特斯拉。马斯克对此回复说，“破产是一家车企的常态。”该消息一出，中国的新势力车圈大佬也纷纷在社交平台作出回应。理想汽车CEO李想表示，苹果放弃造车，选择聚焦人工智能是绝对正确的战略选择，时间点也合适。他分析道，人工智能会成为所有设备、服务、应用、交易的最顶层入口，是苹果的必争之战。汽车大获成功的必要条件仍然是人工智能。汽车的电动化是上半场，人工智能才是决赛。小鹏汽车CEO何小鹏则发帖表达了意外之感，“去年还讨论过，汽车行业新进入者会在2024年内全部出牌，但除了苹果。2024年后的十年会进入淘汰赛和全明星赛。但没有想到苹果在2024年出了这样的牌。”同样表示震惊的还有小米集团董事长兼CEO雷军。雷军表示“非常震惊”，并提到深知造车难度，3年前依然做了无比坚定的战略选择，认认真真为米粉造一辆好车。在社交媒体上，有不少数码圈分析人士表示，苹果放弃造车，尤其对于小米汽车而言算不上好消息。因为苹果造车与小米造车有很高的相似度，巨头苹果折戟在一定程度上证明了这条路很难走通。小米集团总裁卢伟冰此前在接受媒体采访时透露，小米确信在竞争激烈的电动汽车市场找到了自身定位和用户群体，愿意为即将推出的小米SU7买单。预计小米汽车的第一批用户将与手机用户高度重叠。小米汽车最快今年第二季度开始在国内市场交付。早在2014年，苹果就开始探索电动汽车项目，该项目被称为Titan计划。苹果启动Titan计划后，发挥“钞能力”重金从谷歌、奔驰、特斯拉等公司挖角，组建了一支拥有硅谷和汽车产业基因的核心团队。在最为鼎盛的时期，研发人员就超过5000名。据外媒报道，截至2019年末，苹果仅从特斯拉挖走的人才就超过300人。不过后来，由于苹果在造车路线和方向上反复摇摆，也迟迟没有合作对象和形式落地，导致参与Titan计划的高管大量出走，项目也几度停滞。(本文来源澎湃新闻，如有侵权请联系删除)

2024-03-01 08:00:00 86

特斯拉APP推出测试版AI聊天助手

美国当地时间周二，特斯拉推出了一项手机软件更新，引入了名为“特斯拉助手Beta版”的人工智能聊天助手。该助手是特斯拉应用程序的新功能之一，其目的是解答与已注册的特斯拉产品以及其他特斯拉产品相关的问题。特斯拉一直将其应用程序视为汽车生态系统的核心组成部分，为特斯拉车辆提供了各种连接功能，这在汽车行业中是一项先驱工作。此次更新不仅引入了聊天助手，还在菜单中新增了一个选项，突出显示公司的非汽车产品。特斯拉认识到越来越多没有特斯拉车辆的用户正在下载并使用其应用程序，尤其是因为特斯拉将其应用程序用于非特斯拉电动车车主使用超级充电网络。这表明特斯拉正在努力将其服务扩展到更广泛的用户群体，并为所有用户提供更全面的体验。

2024-03-01 08:10:00 95

Pika推出“对口型”功能

Pika，作为一家领先的AI视频生成平台，近期宣布推出了令人振奋的全新功能——Lip Sync，旨在为用户提供更加生动和逼真的视频体验。该功能的核心特点在于实现视频中人物的唇形同步，并为其配音。目前，这项创新功能仅对Pika Pro用户开放体验，Pro用户可通过每月58美元的订阅费享受到这一独特功能。Lip Sync功能得到了AI语音克隆创企ElevenLabs的技术支持。ElevenLabs不仅提供了音频生成的关键技术支持，还赋予用户更大的创作自由。用户可以选择直接输入文字，由AI生成相应音频，也可以上传自己的音频，使视频角色拥有个性化的语音表达。这一功能的引入赋予用户在视频创作中更多的灵活性和创意空间。通过Lip Sync，用户不仅能够精确控制角色说话的内容，还可以选择合适的音调和语音风格，为视频注入更多个性。Pika的这一创新工具不仅提升了视频生成的质量，也为创作者提供了更多展示创意的机会，将视频制作推向一个全新的高度。产品入口:https://top.aibase.com/tool/pika

2024-03-01 08:30:00 103

阿里发布肖像视频生成框架EMO

近期，阿里巴巴集团智能计算研究院推出的EMO（Emote Portrait Alive）技术引起广泛关注。EMO是一种音频驱动的肖像视频生成框架，被誉为“一种富有表现力的图片-音频-视频模型”。EMO的使用非常简便，只需提供一张照片和一段音频文件，即可在短时间内生成高度逼真的AI视频，最长时长可达1分30秒。通过EMO，不仅可以实现任意语音、语速与图像的一一对应，还能呈现出具有丰富表情和多种头部姿势的声音头像视频。以蔡徐坤的照片为例，结合其他音频，EMO能够“唱出”一首rapper饶舌，甚至口型几乎一模一样。技术原理上，EMO框架包含帧编码阶段、扩散过程阶段、去噪操作、注意力机制以及时间模块的使用。在帧编码阶段，通过ReferenceNet提取参考图像和运动帧中的特征。在扩散过程阶段，音频编码器处理音频嵌入，同时面部区域掩码与多帧噪声结合，引导面部图像生成。去噪操作通过Backbone Network实现，保证生成图像的质量和准确性。EMO内部应用Reference-Attention和Audio-Attention等注意力机制，以保持角色身份特征和调节角色动作。时间模块用于操纵时间维度，调整运动速度，使生成的视频更加自然流畅。EMO的主要特点包括高度自然与逼真的视频生成能力、身份一致性与视频生成的稳定性、以及灵活性与多样性。生成的视频不仅在视觉上吸引人，而且在动态展示上更加自然流畅。EMO还支持生成与输入音频长度相匹配的任意长度视频，展现了其对不同文化和艺术风格的广泛适应性。这一技术引领了AI在图像、音频和视频融合领域的新发展，不仅在B站鬼畜视频领域表现出色，同时也为用户提供了更加便捷、创意丰富的多媒体内容生成体验。阿里巴巴集团在智能计算领域的先进技术实力再次得到展现。EMO的应用前景广泛，尤其对于AI视频解说、AI动漫制作、短视频制作等应用场景，它都是一款妥妥的生产力工具。虽然项目尚未开源代码，但这一强大的音频驱动视频效果已经成为AI领域的一次重要进化。智东西报道指出，EMO在视频生成领域再次为国产AI模型树立了新的里程碑，让“开局一张图，后期可以全靠AI了”的设想成为现实。论文地址：https://arxiv.org/pdf/2402.17485.pdf项目主页：https://humanaigc.github.io/emote-portrait-alive/

2024-03-01 08:20:00 89

Gemini 1.5通过视频成功修复Bug

社交平台X博主Mckay Wrigley和twitter用户@0xca0a的经验共同展示了Gemini Pro 1.5在自动代码修复领域的卓越性能。Mckay Wrigley通过文字描述和上传程序界面截图向Gemini Pro 1.5报告了问题，Gemini不仅准确找到了问题代码的位置，还提供了详细的解决方案，成功修复了Bug。而twitter用户@0xca0a则采用了一种更为直观的方法，通过录制应用中的三个不同的bug，并将视频连同整个代码库一并提交给Gemini 1.5 Pro。令人惊讶的是，Gemini成功识别并修复了每一个bug。这表明通过视频记录bug，并利用AI进行分析和修复，可能成为传统bug修复流程的革新，极大提高了开发效率。这两个案例突显了Gemini Pro 1.5在自动代码修复方面的出色表现。无论是通过文字报告还是视频记录，Gemini都展现了其强大的问题定位和解决能力。这种智能修复的方法不仅能够减少开发者的工作负担，更为开发团队提供了一种更快速、高效的bug修复途径。这一技术的应用可能会为开发者社区带来积极影响，推动软件开发过程的创新。通过Gemini Pro 1.5的先进能力，社交平台X博主和twitter用户的经验都揭示了自动化代码修复的巨大潜力，这不仅是技术上的进步，也是提升开发效率的重要一步。

2024-03-01 08:00:00 90

AI客服效率大幅超越人工

克拉纳宣布其由OpenAI提供支持的AI助手取得了显著成果。上线仅一个月，数据已经充分证明了其卓越表现：- AI助手进行了230万次对话，占克拉纳客户服务聊天的三分之二- 它的工作相当于700名全职代理- 在客户满意度评分方面，它能与人类代理相媲美- 在任务解决方面更加准确，导致重复查询减少了25%- 顾客现在能够在不到2分钟内解决他们的问题，相较之前的11分钟，效率显著提高- 它在23个市场上全天候可用，使用超过35种语言进行沟通- 预计它将在2024年为克拉纳带来4000万美元的利润改善- 得益于多语言支持，克拉纳与所有市场的本地移民和外籍社区的沟通有了显著改善。克拉纳的AI助手在其应用中提供，旨在提升克拉纳全球1.5亿消费者的购物和支付体验。该助手能够处理从多语言客户服务到管理退款和退货以及培养健康财务习惯等一系列任务。这一推出标志着克拉纳迈向完全由AI驱动的金融助手的重大飞跃，旨在为消费者节省时间、减轻担忧并节省金钱，同时使全球零售银行业更加高效和以消费者为中心。令人振奋的是，新功能已经在计划中，将很快添加到AI助手中。此外，如果顾客更愿意，他们仍然可以选择与实时代理互动。“克拉纳在我们合作伙伴中一直是AI采用和实际应用的领先者。”OpenAI的首席运营官Brad Lightcap表示。“我们共同正在释放AI提高生产力、改善日常生活的巨大潜力。”“这一在客户互动中的AI突破意味着我们的顾客将以更合理的价格获得卓越的体验，我们的员工将面临更有趣的挑战，我们的投资者将获得更好的回报。”克拉纳的联合创始人兼首席执行官Sebastian Siemiatkowski说道。“我们对这一推出感到非常兴奋，但这也强调了AI将对社会产生深远影响。我们要再次强调并鼓励社会和政治家们慎重考虑这一点，相信审慎、知情和稳健的管理对于引领我们穿越这一社会转型将至关重要。”以下是当前向全球消费者提供的主要功能：1.全天候客户服务专家：克拉纳的AI助手是一个可靠、随时可用的资源，能够娴熟处理各种查询，包括退款、退货、支付相关问题、取消、纠纷和发票错误，确保提供迅速而有效的解决方案。2. 个人财务助手：克拉纳的AI助手实时提供未清余额和即将到期的付款计划更新，确保您不会错过任何克拉纳付款。它还清晰地解释您的购买能力，说明支出限制及其原因，使您能够做出明智而自信的购物选择。3. 多语言聊天支持：无论您说阿拉伯语还是法语，克拉纳的AI助手随时以您的母语提供支持，能够处理超过35种语言的查询。关于克拉纳（KLARNA）自2005年以来，克拉纳一直致力于以消费者需求为核心推动商业的发展。拥有超过1.5亿全球活跃用户和每天200万笔交易，克拉纳的公平、可持续和由AI驱动的支付和购物解决方案正在彻底改变人们在线和线下购物支付的方式，赋予消费者更智能、更便捷的购物信心。超过50万全球零售商集成了克拉纳的创新技术和营销解决方案，以推动增长和忠诚度，包括H&M、萨克斯、丝芙兰、梅西百货、宜家、Expedia集团、耐克和爱彼迎等。有关更多信息，请访问Klarna.com。

2024-03-04 08:00:00 80

Meta：计划7月发新模型Llama 3

最新消息透露，Meta计划于今年7月发布其最新的人工智能大型语言模型——Llama 3。这一计划引起了广泛关注，因为Llama 3备受期待，有望在人工智能领域取得重大突破。根据知情人士透露，Meta希望Llama 3能够在多模态处理方面与OpenAI的GPT-4媲美，后者已经以其强大的多模态能力成为业内翘楚。然而，目前Llama 3是否为多模态模型的决定尚未最终敲定，因为研究人员尚未开始对模型进行微调。微调是为现有模型提供额外数据的过程，有助于大模型学习新信息或执行新任务。Llama 3预计将拥有超过1400亿个参数，较去年7月发布的Llama 2的700亿个参数规模更为庞大。然而，与业界巨头GPT-4相比，Llama 3的参数规模仍不到其十分之一，因为GPT-4的参数规模约为1.8万亿。此外，Meta公司在推出Llama 3之前正致力于解决Llama 2中的一个问题——即无法处理有争议问题。由于安全护栏的存在，Llama 2在处理一系列有争议问题时会拒绝回答，被认为“过于安全”。为此，研究人员计划放宽Llama 3在这方面的限制，使其更具互动性，能够为用户提供更多背景信息，而非仅仅拒绝回答。与此同时，Meta还在加强对Llama 3的安全工作，尤其是在处理有争议问题时提供更多上下文。最新的模型预计能够更好地回答用户提出的有争议问题，从而提升Meta在人工智能领域的实用性，保持领先地位。尽管人们对Llama 3寄予厚望，但Meta仍然面临人才竞争的挑战。近期，负责Llama 2和Llama 3安全工作的研究员Louis Martin以及强化学习负责人Kevin Stone相继离职，这对Meta而言是一次不小的挑战。然而，随着Llama 3的发布日期临近，业界对于这一重要创新的期待也在不断升温。

2024-03-04 08:05:00 59

Adobe发布音乐创作工具

Adobe Research最新推出的实验性工作，Project Music GenAI Control，标志着人们创作和编辑音频与音乐的方式即将发生彻底变革。这项生成式人工智能音乐生成和编辑工具允许创作者通过简单的文本提示生成音乐，并在后续编辑阶段中精细调控音频，以满足其独特需求。Nicholas Bryan，Adobe Research的高级研究科学家之一，也是这一技术的创作者之一，强调了Project Music GenAI Control的卓越性能：“通过这个工具，生成式人工智能成为创作者的协作伙伴，助力各类项目创作音乐，无论是广播公司、播客制作者，还是其他需要精准情感、音调和长度音频的个体。”Adobe在人工智能领域拥有十年的经验，其旗下的生成式人工智能模型系列Firefly已经成为全球设计用于安全商业用途的最受欢迎的人工智能图像生成模型，生成超过60亿张图像，同时积极遵循人工智能伦理原则，确保技术的问责、责任和透明度。使用Firefly生成的所有内容都会自动包含内容凭证，这是数字内容的“营养标签”，无论在何处使用、发布或存储，都与内容紧密相关。Project Music GenAI Control以输入文本提示为起点，让用户通过简单的文本描述如“强烈的摇滚”、“欢快的舞曲”或“忧伤的爵士”来生成音乐。生成后，用户可通过直观的用户界面进行精细编辑，包括转换生成音频的参考旋律、调整音乐片段的速度、结构和重复模式、选择音频强度的增减时机、延长音频片段长度、重新混音某一部分，甚至生成无缝循环。这一工具不同于手动切割现有音乐以制作引子、尾声和背景音频的传统方式，而是帮助用户准确地创建符合其需求的音乐片段，为整个工作流程提供端到端的解决方案。

2024-03-04 08:10:00 72