AINEWS > 资讯 > 正文

机器学习的分类算法的方法、应用与挑战

机器学习的分类算法的方法、应用与挑战

AIINNEWS 2024-02-27 14:54:51 66

一、引言

随着大数据时代的来临，机器学习作为一种强大的数据处理技术，越来越受到广泛关注。分类算法作为机器学习的一个重要分支，在许多领域中发挥着重要作用。本文将详细介绍基于机器学习的分类算法的方法、应用与挑战。

二、分类算法的基本原理

分类算法是一种根据输入数据预测输出结果的技术。它通过训练数据集的学习，建立一种映射关系，将输入数据映射到相应的类别中。常用的分类算法包括决策树、支持向量机、神经网络等。

三、机器学习在分类算法中的应用

1. 文本分类：在文本分类中，机器学习算法可以自动提取文本中的特征，并利用这些特征进行分类。常见的文本分类算法包括朴素贝叶斯、支持向量机、深度学习等。

2. 图像分类：图像分类是计算机视觉领域的一个重要问题。机器学习算法可以通过学习大量图像数据，自动识别图像中的物体类别。常用的图像分类算法包括卷积神经网络（CNN）、深度卷积神经网络（DCNN）等。

3. 语音识别：语音识别是人工智能领域的一个重要应用。机器学习算法可以自动提取语音信号中的特征，并对其进行分类识别。常用的语音识别算法包括声学模型和声学-语言模型结合的方法。

4. 用户行为分析：在用户行为分析中，机器学习算法可以自动分析用户的行为数据，预测用户的行为偏好和购买意愿。常用的用户行为分析算法包括协同过滤、关联规则挖掘等。

四、挑战与解决方案

1. 数据标注问题：在机器学习中，数据标注是至关重要的一步。由于人工标注成本高昂且易出错，如何高效地自动标注数据成为一大挑战。解决方案包括使用自动化标注工具和半监督学习方法等。

2. 模型泛化能力：机器学习模型往往对训练数据过于依赖，当面对未见过的数据时，其性能可能会大幅下降。解决方案包括使用迁移学习、领域适应等方法，提高模型的泛化能力。

3. 数据隐私和安全问题：在机器学习中，数据隐私和安全问题至关重要。如何保护用户隐私和数据安全，防止数据泄露和滥用，是当前面临的挑战之一。解决方案包括使用加密技术、匿名化处理等措施。

五、结论

基于机器学习的分类算法在许多领域中发挥着重要作用，如文本分类、图像分类、语音识别和用户行为分析等。然而，也存在一些挑战，如数据标注问题、模型泛化能力以及数据隐私和安全问题。未来研究方向包括提高模型的泛化能力、保护用户隐私和安全等。

上一篇：什么是分布式机器学习下一篇：机器学习中的数学知识有哪些

基于机器学习的分类算法

基于机器学习的分类算法

引言：随着科技的进步，机器学习已成为当今数据分析领域的热门话题。尤其在分类算法中，它提供了解决现实世界问题的新途径。本文将详细阐述基于机器学习的分类算法及其应用，并探讨其所面临的挑战与机遇。一、分类算法概述分类算法是一种基于预测模型的技术，它通过分析数据集的特征，预测出样本的类别或标签。常见的分类算法包括决策树、支持向量机、神经网络等。这些算法在许多领域都有广泛的应用，如医疗诊断、金融风险评估、市场预测等。二、挑战1. 数据复杂性：随着数据量的增加，数据复杂性也随之增加。数据中的噪声、异常值和类别不平衡等问题，都会影响分类算法的性能。2. 模型可解释性：机器学习模型往往难以解释其决策过程，这使得其在某些领域的应用受到限制。例如，在法律和医疗领域，模型的解释性至关重要。3. 算法选择：不同的分类算法有其优缺点，选择合适的算法对于提高模型性能至关重要。然而，如何根据特定问题选择合适的算法仍是一个挑战。4. 计算资源：大规模数据集需要大量的计算资源和时间进行训练，这对许多应用来说是一个限制因素。三、机遇1. 自动化决策：基于机器学习的分类算法能够自动化处理大量数据，提高决策效率。这使得企业能够更快地响应市场变化，提高竞争力。2. 预测准确性：通过学习历史数据，机器学习模型能够预测未来趋势，提供更准确的预测结果。这有助于企业制定更有效的战略。3. 跨领域应用：随着技术的发展，机器学习模型的应用范围越来越广，从金融、医疗到教育、娱乐等各个领域都有其应用。4. 人才培养：随着机器学习的发展，对相关领域的人才需求也在增加。这为教育领域提供了新的机遇，培养更多具备机器学习技能的人才。结论：基于机器学习的分类算法在许多领域都展现出了强大的应用潜力，但也面临着数据复杂性、模型可解释性、算法选择和计算资源等挑战。然而，这些挑战也为机器学习带来了新的机遇，如自动化决策、预测准确性、跨领域应用和人才培养等。在未来，随着技术的不断进步，我们期待机器学习在分类算法方面能解决更多现实世界的问题，带来更多的价值。

2024-02-27 14:53:59 69

基于机器学习的数据集分类

基于机器学习的数据集分类

一、引言随着大数据时代的来临，数据集的处理和分类成为了一项重要的任务。传统的数据处理方法已经无法满足现代数据集的复杂性和多样性，因此，基于机器学习的数据集分类方法应运而生。本文将详细介绍这种新的数据集处理方法，以及其在实践中的应用。二、机器学习概述机器学习是一种人工智能领域的技术，它通过让计算机自动从数据中学习规律和模式，实现对数据的分类和预测。机器学习技术包括监督学习、无监督学习、半监督学习、强化学习等，其中基于机器学习的数据集分类主要采用监督学习和无监督学习的方法。三、数据集分类方法1. 数据预处理：首先需要对数据进行预处理，包括清洗数据、转换数据类型、规范化数据等，以提高模型的性能。2. 特征选择：根据数据集的特点，选择对分类结果影响最大的特征，以减少特征维度，提高模型效率。3. 模型训练：基于所选特征，使用机器学习算法训练分类模型。常见的算法有逻辑回归、支持向量机、神经网络等。4. 模型评估：使用测试数据集对模型进行评估，以确定模型的准确率、召回率等指标。5. 调整与优化：根据评估结果，对模型进行参数调整和优化，以提高模型的性能。四、实践应用1. 医疗诊断：基于机器学习的数据集分类可以应用于医疗诊断领域，通过对医疗影像数据的分类，辅助医生进行疾病诊断。例如，通过训练深度学习模型对CT扫描图像进行肺癌诊断，可以提高诊断的准确性和效率。2. 金融风控：金融机构可以利用基于机器学习的数据集分类方法，对客户信用风险进行评估。通过对客户历史信用数据的学习，建立信用评分模型，为信贷决策提供依据。3. 电商推荐：电商网站可以利用基于机器学习的数据集分类方法，对用户购物行为数据进行分类，实现个性化推荐。通过对用户历史购买记录的学习，建立用户画像模型，为用户提供更加精准的商品推荐。五、结论基于机器学习的数据集分类是一种新型的数据处理方法，它能够自动从海量数据中学习规律和模式，实现对数据的分类和预测。通过合理的预处理、特征选择、模型训练和评估优化，该方法在实践中的应用取得了显著的成果，具有广阔的发展前景。随着机器学习技术的不断进步，相信基于机器学习的数据集分类方法将会在更多领域得到应用，为人类社会带来更多的便利和价值。

2024-02-27 14:27:38 77

基于MATLAB的机器学习算法应用

基于MATLAB的机器学习算法应用

一、引言随着人工智能和大数据时代的到来，机器学习算法在各个领域的应用越来越广泛。MATLAB作为一款强大的数学软件，为机器学习算法提供了丰富的工具和函数库，使得研究者可以更便捷地进行实验和分析。本文将从理论到实践，详细介绍基于MATLAB的机器学习算法的应用。二、机器学习算法概述机器学习是一种通过让计算机自动从数据中学习规律和模式，以实现对未知数据的预测和分类的算法。常见的机器学习算法包括决策树、支持向量机、神经网络、随机森林、k-近邻等。这些算法在不同的应用场景下具有各自的优势和适用性。三、MATLAB工具箱介绍MATLAB提供了多种机器学习工具箱，包括统计和机器学习工具箱、深度学习工具箱等。这些工具箱为机器学习算法提供了丰富的函数库和接口，使得研究者可以更方便地进行实验和分析。此外，MATLAB还提供了可视化的数据分析和图形展示功能，使得结果更易于理解和分析。四、实践案例：基于MATLAB的图像分类1. 数据准备：选择合适的图像数据集，并进行预处理，如缩放、裁剪、归一化等。2. 算法选择：根据图像数据的特点，选择合适的机器学习算法，如卷积神经网络（CNN）进行图像分类。3. 模型构建：使用MATLAB的深度学习工具箱，构建CNN模型并进行训练。4. 模型评估：使用测试集对模型进行评估，并比较不同算法的性能。五、实践案例总结与展望通过以上实践案例，我们可以看到基于MATLAB的机器学习算法在实际应用中的优势和效果。同时，我们也需要注意到算法选择和参数调优的重要性，以及数据集的选择和处理对结果的影响。未来，随着算法的不断发展和优化，以及数据量的不断增加，机器学习算法的应用将更加广泛和深入。我们期待看到更多基于MATLAB的机器学习算法在实际问题中的应用和突破。六、结论本文从理论到实践，详细介绍了基于MATLAB的机器学习算法的应用。通过实践案例，我们看到了MATLAB在机器学习领域的优势和潜力。未来，随着算法和技术的不断进步，我们将看到更多基于MATLAB的机器学习算法在实际问题中的应用和突破。

2024-02-27 14:59:53 71

基于机器学习的回归预测

基于机器学习的回归预测

一、引言随着大数据时代的到来，回归预测已成为各行各业中不可或缺的一部分。回归预测的目标是预测一个或多个变量之间的连续关系，并以此为依据做出决策。而机器学习作为近年来最热门的领域之一，其强大的拟合数据和预测未来的能力使得回归预测变得更加精确。本文将深入探讨基于机器学习的回归预测的理论和实践。二、机器学习与回归预测机器学习是一种让计算机从数据中学习模式和规律的技术。通过训练模型，机器学习算法能够识别出数据中的特征和相关性，从而进行预测。回归预测是机器学习的一个重要应用领域，它涉及到预测因变量（目标变量）与自变量（预测变量）之间的函数关系。三、回归预测的算法1.线性回归：线性回归是最基本的回归算法之一，它通过最小化误差的平方和来拟合数据。线性回归适用于因变量和自变量之间存在线性关系的情况。2.决策树回归：决策树是一种非参数的监督学习方法，它通过构建决策树模型来对数据进行分类和回归预测。决策树回归适用于解释性强的数据集，能够直观地展示预测过程。3.支持向量机回归：支持向量机是一种二分类算法，但也可以用于回归预测。通过在高维空间中寻找最优分类超平面，支持向量机能够将数据映射到高维空间中，从而更好地捕捉数据的特征。4.神经网络回归：神经网络是一种模拟人脑神经元连接方式的深度学习算法。通过构建多层神经网络，神经网络能够学习数据的复杂模式，从而进行精确的回归预测。四、实践应用1.数据收集和处理：在进行回归预测之前，需要收集相关的数据并进行预处理。数据清洗和标准化是必不可少的步骤，以确保数据的准确性和一致性。2.模型选择和参数调整：不同的回归算法有不同的适用场景和参数设置要求。选择合适的算法并调整参数可以提高模型的性能。3.模型评估：评估模型的有效性是确保其能够准确预测的关键步骤。常见的评估指标包括均方误差、决定系数和交叉验证等。五、案例分析以房地产价格预测为例，利用机器学习算法（如神经网络或支持向量机）对房地产市场中的房屋面积、价格和其他相关因素进行建模，并通过验证数据集对模型进行验证。最终得出基于机器学习的回归预测在房地产价格预测中的应用价值。六、结论综上所述，基于机器学习的回归预测在许多领域中具有广泛的应用价值。通过选择合适的算法和调整参数，以及进行模型评估和验证，我们可以提高模型的性能并获得更准确的预测结果。未来，随着大数据和人工智能技术的不断发展，基于机器学习的回归预测将发挥越来越重要的作用。

2024-02-27 14:51:08 68

机器学习的理论背景是什么

机器学习的理论背景是什么

一、引言随着科技的飞速发展，人工智能（AI）已成为当今时代的重要话题。其中，机器学习作为人工智能的一个重要分支，其理论和实践的探索之旅一直备受关注。本文将围绕机器学习的理论背景、应用领域、实践方法以及未来发展等方面，详细阐述机器学习从理论到实践的探索之旅。二、机器学习的理论背景机器学习是一种通过让计算机自动从数据中学习规律和模式，从而实现对未知数据的预测和分类的技术。其理论基础包括统计学、优化理论、神经网络、深度学习等。机器学习的核心是让计算机能够自主地“学习”和“进步”，无需人工干预。三、机器学习的应用领域机器学习已经广泛应用于各个领域，如医疗、金融、交通、安防等。在医疗领域，机器学习可以帮助医生进行疾病诊断和治疗方案制定；在金融领域，机器学习可以进行风险评估、投资决策和反欺诈；在交通领域，机器学习可以用于智能交通管理系统，提高道路安全和交通效率；在安防领域，机器学习可以提高视频监控的准确性和实时性。四、实践方法与案例1. 数据收集与预处理：机器学习首先需要大量的数据作为训练样本，因此数据收集是至关重要的一步。在收集数据后，需要进行数据清洗、转化和标准化等预处理工作，以便机器学习算法更好地识别和处理数据。2. 算法选择与模型构建：根据具体应用场景和数据特点，选择合适的机器学习算法和模型。例如，对于分类问题，可以选用逻辑回归、支持向量机或神经网络等算法；对于回归问题，可以选用线性回归或深度学习模型。在模型构建过程中，需要不断调整参数和优化模型结构，以提高模型的准确性和泛化能力。3. 模型评估与优化：在模型训练完成后，需要进行模型评估和优化。评估可以通过交叉验证、ROC曲线、AUC值等指标来进行。优化可以通过调整超参数、改变模型结构、增加数据集等方式来实现。以某银行反欺诈系统为例，该系统运用了机器学习的分类算法，通过对客户交易数据的分析，预测是否存在欺诈行为。在实际应用中，该系统准确率高达90%以上，有效降低了银行的风险。五、未来发展随着大数据和云计算技术的不断发展，机器学习的应用场景将更加广泛。同时，深度学习、强化学习等新技术的出现，将为机器学习带来更多的可能性。未来，机器学习将在更多领域发挥重要作用，如自动驾驶、医疗诊断、智能制造等。总结：机器学习从理论到实践的探索之旅仍在继续。通过不断的学习和实践，我们相信机器学习将在未来带来更多的惊喜和改变。

2024-02-27 14:52:22 84

10分钟前！GPT-4-Turbo 推出了正式版

10分钟前！GPT-4-Turbo 推出了正式版

10 分钟前GPT-4 Turbo 推出了正式版OpenAI 官方发布关于正式版虽然 GPT-4-Turbo 发布已久，但一直以“预览版”的方式提供。而就在刚才，OpenAI 发布了 GPT-4-Turbo 的正式版。主要信息包括：▶ 全面开放，可通过“gpt-4-turbo”来使用此模型，最新版本为“gpt-4-turbo-2024-04-09”▶ 基础能力更新，按官方说法：Majorly improved GPT-4 Turbo model▶ 自带读图能力，无需使用 4v 接口▶ 128k 上下文▶ 训练数据截止至 2023 年 12 月这里查阅接口信息：https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4 价格方面，和之前的 GPT-4-Turbo 保持一致，即：▶ 输入：$10.00 / 100万 tokens▶ 输出：$30.00 / 100万 tokens▶ 读图：最低 $0.00085 / 图这里查阅价格信息：https://openai.com/pricing 频率限制方面，以最高级 Tire 5 为例，官方说明中：▶ 最高并发：10,000 次/ 分钟▶ 最高处理：1,500,000 tokens / 分钟这里查阅相关限制：https://platform.openai.com/docs/guides/rate-limits/usage-tiers?context=tier-five 我看了一下后台，还是老的限制，应该还没改完：▶ 最高并发：3,000 次/ 分钟▶ 最高处理：250,000 tokens / 分钟这里查看你的限制：https://platform.openai.com/account/limits GPT-4 还有哪些版本▶ GPT-4发布于去年的 3 月 14 日（即 0314 版），后续更新 0613 版，支持 8k 上下文，是经典版的 GPT-4。- 输入：$30.00 / 100万 tokens- 输出：$60.00 / 100万 tokens ▶ GPT-4-32k与 GPT-4 同期发布，也是有 0314 和 0613 两个子版本，支持 32k 上下文，是当时上下文最长的模型，但非常贵。- 输入：$60.00 / 100万 tokens- 输出：$120.00 / 100万 tokens另说一下，这个模型是邀请制，至今未公开提供。 ▶ GPT-4-Turbo-Preview （即 GPT-4 Turbo 预览版）发布于去年的 11 月 6 日（即 1106 版），后续更新 0125 版，支持 128k 上下文，并且大幅降价。- 输入：$10.00 / 100万 tokens- 输出：$30.00 / 100万 tokens ▶ GPT-4-Vision-Preview （即 GPT-4 Turbo 的读图版）和 GPT-4-Turbo-Preview 同一时间发布，也包括 1106 版和 0125 版，价格保持一致，但给的用量不多。- 输入：$10.00 / 100万 tokens- 输出：$30.00 / 100万 tokens读图的价格看分辨率：最低 $0.00085 / 图(本文来源赛博禅心，如有侵权请联系删除)

2024-04-11 09:48:42 124

实用至上：智能体/Agent 是什么

实用至上：智能体/Agent 是什么

Agent 的起源不做词义追源，仅从大众角度，这个事儿是去年初开始的，也就是 2023 年 2-3 月。标志性事件包括：AutoGPT 等开源项目的发布，这是第一批基于自然语言的 AI 自动化实践：你告诉它一个任务，它就会通过自然语言的自我对话，将这个任务进行拆分、规划并实现。斯坦福小镇一类的项目实践：给予不同的 Bot 以不同的人格，搭配记忆窗口，让它们之间相互对话。发表于 2 月的论文《Toolformer: 大模型可以教自己使用工具》，以及 OpenAI 在 3 月底发布的插件计划：这意味着，大模型从原来的“思想家”，通过对外部工具的使用，变成了实干家。《AI 学会使用工具了》2023年2月14日，报道自赛博禅心现在的 Agent时至今日，对于 Agent 是什么，可能还没有一个标准的定义。一个常见的观点是，Agent 是一种让 AI 以类似人的工作和思考方式，来完成一系列的任务。一个 Agent 可以是一个 Bot，也可以是多个 Bot 的协同。就像是职场里，简单的工作独立完成，复杂的工作协作完成一样。对于每个 Bot 来说，可能会包括：一个大脑：判断和规划行为，这里通常用 GPT-4或同水平的 LLM；眼睛和手：确认信息和使用外部工具，一般是各种插件/action/api；工作纪要：储存已经发生的事，通常的媒介是上下文窗口，或者数据库；行为SOP：明确这个 Agent 的身份、任务、目标和机制。这个 SOP 可能是用户给的，也可能是由其它 Bot 给出的。再具象一点，这里我从 GPTs 里截了个图：对于 GPTs，通常被认为是由 OpenAI 设计的简化版的 Agent。默认情况下，只能进行单 Bot 交互：一个大脑：在 ChatGPT GPT Store 里，GPT-4 是唯一可选的 LLM；眼睛和手：可以在 Capabilities 里勾选由 OpenAI 提供的第一方能力，也可以通过Actions 来拓展更多的外部能力；工作纪要：一般来说就是对话记录，GPTs 可以回顾之前的对话；行为SOP：存放在 Description, Instructions 以及 Knowledge 里。 OpenAI 的 Agent 演进以 OpenAI 为例，我们看看 Agent 是如何一步步演进的。去年 3 月底，OpenAI 宣布了插件计划，并在 5 月上线了插件商店，这也标志了 OpenAI 揭开 Agent 战局的第一步。在当时 OpenAI 给开发者发送的指引中，给了这样的 Todo：第一步：开发接口，来定义 ChatGPT 可以调用的功能。接口可以是新开发的，也可以是改造现有的第二步：写一份文档，给 ChatGPT 来看，让它知道什么时候去调用接口。当然，这里要遵循一定的格式，然后用自然语言来写。如果你做过 OpenAI API 的开发，可能会觉得这个文档有些熟悉，这不就是 Fuction Call 吗？没错，在 2023 年 6 月 13 日，OpenAI 发布了 Function Call 模式，让大模型可以来调用外部工具，用的就是非常类似的方案。再往后，OpenAI 的相关工作人员做了一系列的 Research，关于 Agent 的最佳实践。同时的，也发布了 Custom Instruction 指令的相关功能。之后，ChatGPT 推出了 All Tools 功能。也就是回答用户问题时，不再需要用户自主的来选择工具，这可以视作是“自动版的Plugin”，覆盖了三款官方工具：Browsing, Advanced Data Analysis 和 DALL·E。时间推移，在2023 年 11 月 6 日的时候，在 OpenAI 开发者大会上，Sam Altman 宣布了 GPTs，这通常被认为是 OpenAI 推出了其第一个正式版的 AI Agent。在最初的版本中，包括以下功能允许用户创建多个 Bot，自定义它们的身份和回答风格。并且这些 Bot 可以分享Bot 可以自有使用三款官方工具：Browsing, Advanced Data Analysis 和 DALL·EBot 也可以通过 Action 的方式（类似 API 的东西），去调用任何的外部能力Bot 可以有自己的数据空间，允许用户对这些数据进行 QA。比如在《我刚弄个贼实用的GPTs》中，我上传了 OpenAI 的开发文档，帮助开发者快速生成 OpenAI 的调用代码同时，在11月06日的时候，OpenAI 也更新了几个影响深远的接口：Function Calling：更新多参数生成功能，可以让一轮对话完成多项任务JSON Mode：让 API 通过 JSON，而非文字，来做出回应Seed：设定随机值，提高一致性Assistants API & Code Interpreter：可以理解为把 ChatGPT 的 Bot，搬到了 API 里Retrieval：简易化知识库构建在最近 GPTs 体系上线了 GPT Store，有些媒体称其为 OpenAI 的 App Store 时刻，但其实并不相同。在 GPT Store 里，用户可以搜索和使用为各项任务所开发的 GPTs。紧随 GPT Store 上线的，还有 @GPTs 功能，也就是在任何的对话中，你都可以手动的让某个 GPTs 接管这个对话内容，做出更好的输出。值得一提的是，由于 GPT Store 没有开放支付入口，所以目前几乎所有的 GPTs 都是免费的。对此，OpenAI 也承诺了会给头部开发者提供激励：《GPTs 商店，要发钱了！！！》。其它 Agent 平台之前和 OpenAI 的相关负责人聊过，ChatGPT 的主要定位是“开箱即用的消费级产品”。那这里，自然给“较为复杂的生产级产品”留下了生态空间。这里，我们也来探讨下这类产品。主要的 AI 玩家都会对这方面有所涉足，也各有侧重。比如来传统大厂自字节扣子/coze，百度的灵境矩阵，也比如来自 AI 初创公司的 Dify 等等。以扣子为例，对比与 GPTs Store，主要的体感区别包括：免费，至少目前是完全免费的有数十个官方插件，对比与 GPTs 里只有3个可以用类似低代码的方式，构建Workflow，并被 Bot 调用可以将捏好的 Bot 发布到其它平台（比如飞书，公众号），同时支持 API其中后两条极为核心。我的 Agent 的实战一个设计良好的 Agent 可以提供极大的生产力，并创造极高的价值。前几天大火的 Devin，被称为“第一位由 AI 担任的软件工程师”，它可以自主的去学会如何使用不熟悉的技术，自主的生成代码、调试bug和部署应用。Agent 也可以替代现有的很多软件工具，去完成工作中繁琐的任务。举个例子，我正打算开一个专栏，叫做“乘风破浪的少年们”，去讲述和记录那些在这次 AI 浪潮中，登上世界舞台的中国人，用对话的形式。类似这种：《奥特曼专访：关于 GPT-5、Sora、Ilya、Q*、AGI、外星人等等一切》。这里对我来讲的一个很大挑战：我需要整理大量的文字稿，并且把它排版出来，这并不轻松，也很占时间。我希望有一个 Agent 来帮我做这件事情。昨天下午，我和 Owen（沉浸式翻译的作者）去参加了一个 Hackathon，现场有了灵感，并梳理出了这个 Agent 的思路：第一步：将对话音频文件，通过 AI（比如whisper）转化成文字稿第二步：将文字稿用 AI 转化成 QA 问答对，以 json/csv 的方式储存第三步：将 QA 问答对，转化成 HTML（可以导入进微信公众号）我们花了俩小时，用扣子，把这个 Agent 给搓了出来，起名《带带弟弟排版器》，希望大家带带单打独斗的弟弟。也顺道着把我上次参加 OpenAI 的红队活动的笔记，转成了 .csv 然后把这个 .csv 文件丢给了《带带弟弟排版器》就有了昨天的文章：《我参加了 OpenAI 红队的活动，并带来了一些笔记》同样的，这一篇文章《中学生能看懂：Sora 原理解读》，是用我写的另一个 Agent 完整生成的，包括排版。我相信，在 AGI 来之前，Agent 是一个很棒的替代方案。不过现在还有俩主要毛病：1.不够稳定；2.算力有点贵 (本文来源赛博禅心，如有侵权请联系删除)

2024-04-08 10:11:40 145

ChatGPT 突然放开了账户限制，面向所有人开放

ChatGPT 突然放开了账户限制，面向所有人开放

大门终于打开。奥特曼 OpenAI 的旗舰产品 ChatGPT 突然宣布：将面向所有人开放，无论你有没有注册账户。从今天开始，访问 Chat.openai.com 将不再要求用户登录，用户将直接进入与 ChatGPT 的对话界面，且界面的模式与采用登录方式的用户一样，你可以与 ChatGPT 尽情聊天。如下图：目前 GPT-3.5 支持所有人使用，而 GPT-4 则只支持 ChatGPT 的付费会员使用。不过，没有 ChatGPT 账户的用户，将无法获得与拥有账户的用户相同的功能，这些功能包括：无法保存或共享聊天记录、使用自定义指令，或者其他通常需要与永久账户关联的功能。当然，ChatGPT 也仍然支持你成为注册用户，然后登录。需要注意的是：正如我前文所述，此前 ChatGPT 的增长已经基本停滞——其流量峰值，出现在了 2023 年的 5 月，此后，再也没有恢复到峰值。也就是说，ChatGPT 突然打开大门，应该是其迫于增长压力和竞争压力导致的。可以预见：很快，ChatGPT 将因此迎来一个陡峭的访问量激增，因为会有大量的人来到 Chat.openai.com 试用 ChatGPT。不过我其实认为，大型通用聊天机器人的用户界面会有天花板。因为随着如 AI 搜索引擎 Perplexity 等各种 AI 机器人的服务越来越完善，甚至包括，像微软公司通过 Windows 操作系统直接把 AI Chat（Copilot）安装在了用户电脑屏幕底部的任务栏上，甚至是直接做进了微软电脑 Surface 的键盘上，未来用户到底会使用哪家服务的竞争将会越来越激烈。(本文来源硅发布，如有侵权请联系删除)

2024-04-08 10:04:57 129

数智员工，重塑一个新未来

数智员工，重塑一个新未来

科技进步不断重塑人类工作的本质，在如今的生成式AI与数字化转型热潮下，数智员工悄然崛起，成为一股不可忽视的力量。IDC报告显示，中国AI数字人市场规模呈现高速增长趋势，预计到2026年将达102.4亿元人民币。数智员工的应用场景非常广泛，包括数据录入和处理、网络营销、客户服务、内部管理和数据分析等。数智员工将出现在哪些全新的生产、生活场景?应该如何更好的迎接“数智员工”新趋势？当数智员工，从一项技术创新的产物，真正成为一个产业，走向大规模的落地应用，未来将如何转化为现实生产力，如何形成完整的商业模式，如何推动下一阶段的创新？3月26日，盛景网联高级合伙人兼AIC人工智能产业孵化器负责人颜艳春，今日人才创始人、董事长兼首席执行官、夸夸菁领创始人胡伟带来了重磅解读，这也是盛景【前沿科技未来产业】系列的第120场直播。今日人才是一家创新驱动的平台型人力资源科技公司，致力于以大数据、云计算、人工智能等技术赋能人力资源行业，通过人才岗位画像、人岗智能匹配、人才智能推荐等方式，实现企业岗位与人才需求的精准适配，让职场不再错配。今日人才也是盛景嘉成投资的优秀企业。颜艳春认为，随着生成式人工智能大模型的超级智力接入每一个人，每一台机器，未来将涌现数千亿的有数基肉身或硅基肉身的机器人问世，集结为未来最庞大的AI劳动力大军。能够提供AI劳动力的公司将成为未来经济中的重要玩家，有潜力进入万亿乃至千亿美元的市值俱乐部。胡伟表示，预计在不久的将来，每个人都将拥有至少一个数智员工助理。数智员工的发展和应用将持续推动社会和经济的变革，当下数智员工行业商业化的成功难题在于对用户需求的精确把握和价值创造。至于大众普遍关心的“数智员工是否会替代人类”的问题，颜艳春和胡伟都给出了否定回答，他们认为，数智员工非但不会替代人类，反而会创造更多的岗位，开创新的工作机会。以下为分享全文，enjoy~今天分享的这篇文章，希望对你有所启发，enjoy~▼主持人： a16Z（安德森·霍洛维茨）基金是全球顶尖的投资机构之一。a16z 合伙人 Martin Casado提出了一个观点，即人类已进入了第三个计算时代。过去微芯片将计算的边际成本降到零，互联网将分发的边际成本降到了零，现在大模型将创作成本亦将降到为零；我对此很感兴趣。您曾经把人工智能大模型比喻成100多年前电力发明一样，将渗透到人类生活的每一个角落和场景，将极大地改变世界。您怎么看待这个问题？颜艳春：我十分同意Martin先生的观点。我认为人工智能之所以将来能超越互联网，因为它是供给端的革命，我们的创作和生产将进入边际成本为0的时代。随着人类不断逼近AGI通用大模型时代，我们将见证一场巨大的生产力革命，带来十倍、百倍乃至万倍的价值创造。未来100年人类创造的新GDP的总和可能超过过去人类1万年的总和，人均GDP将超过人类工业文明时期的10倍，农业文明时期的100倍。智力和价值将成为我们观察人工智能项目颠覆人类生活、文化、经济甚至军事场景的两个重大变量。人工智能创业将遵守三大新定律：Scaling Law（尺度定律）、Huang’s Law（黄式定律），以及DarkLaw（黑暗森林法则）。大力出奇迹，从chatGPT到Sora，Open AI的巨大成功很大程度源于Scaling Law（尺度定律），尺度定律在通用人工智能的重要程度将不亚于摩尔定律。 Open AI的成功验证了尺度定律，即大力出奇迹，产生了巨大的规模效应。我们预测Open AI的chatGPT用户数可能超过100亿，公司价值超过10万亿美金。未来一定将涌现出一大批AI原生、比互联网时代更伟大、像Open AI一样的标志性公司。主持人：这确实很诱人，去年年底您提出了十个大胆的AI革命的十大猜想，可否给我们分享一下？颜艳春：去年，我提出了关于人工智能革命的十个猜想，涵盖三个宏观猜想、三个中观猜想以及四个微观猜想。贫穷限制了我们的想象力，守旧限制了我们的行动力；这些猜想不是想象，只是我们投资的假定和对未来的洞察，需要时间去验证和试错，仅供大家参考。 1.在宏观层面，以未来30-50年的时间尺度，我有三个大胆的猜想：第一个宏观猜想，新文明，人类将进入智业文明时代。这是继农业文明和工业文明之后，人类将开启第三次伟大的新文明。从chatGPT的iPhone时刻到Sora的重磅发布，生成式人工智能（Gen AI）的颠覆者，硅谷初创公司Open AI可谓开天辟地，它不亚于铁器和蒸汽机的发明，结束的不是一个时代，而是一个旧的文明，它必将超越互联网，开启自人类农业文明、工业文明之后的智业文明时代，加速人类的第三次解放。 ChatGPT背后的超级智力爆发后，就像100多年前的电力一样，陆陆续续接入并赋能每一个人，每一台机器，每一个物品，每一个企业，每一个产业，每一个军队，每一个国家。 Gen AI将加速重塑各行各业，加速AI的智力平权，普惠全人类，工业文明的火炬将传递给智业文明。在人类时光的未来长河中，智业文明将如同一颗璀璨的明珠，闪耀着人类智慧的光芒。下一个 100年里，它将给我们带来了巨大的财富和深远的影响，改变了我们的生活方式，推动了人类社会的共同进步和共同富裕。智业文明不仅将给我们人类带来了更大的物质繁荣，还将深刻地改变了人类社会的结构和人们的生活方式。第二个宏观猜想是新上帝，上帝2.0诞生。圣经记载上帝7天造齐了天地万物。生成式人工智能（Gen AI）就是新上帝。生成式人工智能的第一性就是能够准确预测下一个什么东西，从下一个token、下一个时空patch到下一个分子结构、下一个驾驶动作、下一个流行元素。从技术角度来看，基于自注意力机制（self-attentionMechanism）的深度学习模型--transformer架构的各种大模型和agent智能体开发，都有可能在未来获得新的突破，实现对未来趋势的精准预测。这种能力将极大地影响我们对流行趋势、技术发展乃至时空演变的理解。例如，像Sora这样的大模型能够预测下一个流行趋势，仿佛拥有预见未来的能力。所有行业、所有产品和所有app都可能会重新发明一遍，生成式人工智能就像一个新造物主、新上帝，人货场将全部再造，造新人、造新物、造新景，开启一个100万亿美元的超级赛道，特别是零售业将迎来第四次零售革命。第三个宏观猜想，新人类，上千亿机器人军团崛起。上千亿的数字人类和人形机器人等“新人类”可能会大规模诞生，他们将渗透至人类的各个生活、消费、工作以及军事场景中，为人类提供完美的服务。下一个50年，80亿人类的碳基生命、数基生命和硅基生命等三种生命的新化身，将进化为近百亿的碳基人类和上千亿的机器人类，将组成浩浩荡荡的智业文明军团，共同服务于人类征服世界和宇宙的每一个场景。这些新人类，他们和我们人类一道将使人类的整体知识水平得到极大的提升，孕育出更加丰富多彩的文化和艺术，加速涌现新的科技、新材料和太空探索，加速人工智能的平权，普惠给每一个人，每一个，同时智业文明将开启全球化2.0时代，迎来一个更加繁荣共生的全球大航海时代。 2.在中观层面，以未来5-10年的时间尺度，我也有三个大胆的猜想：第一个中观猜想，新模型，万物皆可GPT。今天，全球和中国的头部大模型公司正在加速从单模态向多模态大模型进化的进程。一旦某一天GPT进化为最底层的AIOS人工智能操作系统，它将超越移动互联网时代的操作系统iOS或Android，无限逼近AGI通用人工智能。大模型发展的生态将出现幂次分布：一方面，AGI通用大模型将从百模大战进入春秋战国时代，必将逐渐演进为AIOS操作系统，这将加速物理世界和数字孪生世界的打通，突然涌现奥本海默时刻。另一方面，小模型时代，未来每个行业、每个领域、每个产品、每个企业以及每个个体的人类和机器人类都将拥有自己的大模型。理论上，未来5-5年的长河里，将涌现数万个垂直的行业大模型、数10万个领域大模型，数百万个产品大模型、数亿家企业大模型和上百亿拥有独特人设的个人大模型，这些大模型，都是小规模大模型，我称之为小模型时代。第二个中观猜想，新劳动力， AI人力资源公司崛起。我们期待下一波超越互联网的杀手级AI原生应用甚至超级应用将如雨后春笋般涌现，他们可能不是app，而是被大模型背后的超级智力武装起来的数10亿的数智员工和硅基机器人军团，渗透到各行各业，新的AI劳动力生态和AI人力资源产业集群将加速形成。数百亿拥有数基肉身的数智机器人（数智战士、数智员工）和拥有硅基肉身的人形机器人，将涌入人类大量的军事场景、工业场景、生活场景和消费场景甚至宇宙太空探索的新场景。拥有数基肉身的数智员工（数基机器人）和硅基肉身的硅基机器人，将构成庞大的AI劳动力大军。这预示着能够提供AI劳动力的公司将成为市值达到千亿乃至万亿美元的领头羊，机器人军团的兴起，将为人类提供庞大的高性价比的劳动力人口。这个新时代会带来人类的第三次伟大解放，我们会将机器变得更加类似人类，反过来解放真正的人类。第三个中观猜想，新超级物种，端到端AI原生超级应用涌现。随着通用人工智能（AGI）基础大模型陆续问世、免费开源和全面开放，AI算力基础设施和AGI大模型将变得更好、更快，算力、智力边际成本更低甚至接近零，上万个产业垂直大模型、10万个领域垂直中小模型和杀手级的AI应用将如雨后春笋般涌现，新的AI生态和AIGC产业集群正在形成，拥有十亿乃至百亿级用户的超级应用将诞生。 3.在微观层面，以未来3-5年的时间尺度，我也有四个新的猜想：以上是宏观、中观层面的趋势猜想，微观层面，人们将更关注能看到近期AI给我们能带来哪些实质性收益的趋势。第一个微观猜想，新研发革命，从数据飞轮到PMF飞轮到爆款飞轮。我相信AI将彻底改变研发过程，通过建立AIGC-UGC-PGC的数据飞轮，逐步找到PMF，甚至形成爆款。例如，我们盛景投资的深势科技用自己的大模型帮助宁德时代开发新材料，帮助恒瑞医药开发新药，SheIn的大模型就是一个fashionGPT，能精准预测明天的下一个流行趋势，每天推出7000多个新款，5年将产品爆款率从10%到接近50%。第二个微观猜想，新流量入口，智器时代。手机开创的移动互联网时代将逐步没落。基于手机的app和小程序将不是唯一的流量入口。将大模型的超级智力接入每一个物品后，他们将不再仅仅是一个AI硬件或AI终端，我把他们成为智器，如XR眼镜、AI手表、AI音响、AI玩具、AI冰箱、AI别针，硅基机器人。我们不再需要打开手机中的app，它们将创造出一种新型的对话式的交互革命，甚至带来沉浸式的基于3D空间计算的元宇宙体验，从而成为新的流量入口，这标志着我们将从电器时代进入到一个新的智器时代。第三个微观猜想，新商业模式，从传统的一垂直买卖转向订阅经济模式。这种模式下，企业不仅仅是一次性交易，而是通过提供持续服务来与客户建立长期关系。例如，通过订阅服务，AI技术可以创建个性化体验。比如，过去一垂直卖跑步机或跑鞋的老板，可以签约各种明星，每一用户都可以订阅AI跑友服务，每天一起跑步，只需收取每天1-3元的订阅费。最后，第四个微观猜想，新全球化，产业大航海时代来临。中国、东南亚、巴西等地区产业集群带6000多家工厂，大量的过剩产能输出到全球市场，从单打独斗发展成为全球最大的快时尚产业共同体，去年GMV突破400亿美金。这是中国企业家创造新的世界品牌的摇篮，也是升级为世界级企业家的新机遇。主持人：大模型时代，投资人看什么领域的都有，为什么您很关注数智员工这个赛道呢？颜艳春：在宏观猜想中，我认为下一个30-50年的时间长河中，在人类的大量场景中，将会涌现上千亿的数基或硅基的人形机器人，为我们工作，我认为这是一个巨大的人口爆炸。未来会出现大量的提供AI人力资源的公司，数百亿的数智员工和机器人将会陆陆续续上岗，比如AI销售、AI客服、AI招聘、AI司机、AI模特、AI主播、AI医生、AI营养师、AI孙子、AI爷爷、AI跑友、AI老师、AI伴侣、AI创业导师、AI董事等，这是一个万亿美金的AI劳动力市场。 RaaS，Robotas a Service，机器人即服务。未来很多公司的本质是人力公司，它们卖的是工作，而不是软件和硬件。例如，今日人才创始人去年开发AI劳动力公司夸夸菁领，开发的AI数智员工一开始也很笨，也需要接受入职培训，但自主学习能力很强，现在效能相当于5-10名HR部门的人力资源专员，展示了生产力的巨大提升。今日人才现在已经开始向B站、比亚迪等多家企业供应第一批AI数智员工，月薪不菲。 OpenAI的GPT store，现在应用超过300万，不要看成是Apple的app store应用市场，而应该看成一个全新的AI劳动力市场。在这个市场中，每个AI应用背后代表着一种特定能力的机器人或数字实体，它们可以执行创造性工作，减少人类的重复性劳动。盛景母基金投资的UiPath，原来只是一个RPA软件公司，通过AI赋能，不仅市值飙升，现在市值接近130亿，也开始在财务、人力资源、供应链、IT等多个后台、中台部门替代传统白领工作。亚马逊在物流部门大规模部署了75万台机器人，每个月还在增加1000台机器人，展示了AI劳动力接管蓝领工作的巨大潜力。同时，预计将有更多四足或双足机器人被部署于工业、商业以及家庭场景，进一步拓展AI的应用领域。我们认为对于每一个企业，每一个产业平台，数字员工可以给每个公司节约人力，哪怕100人的工厂节约50人，这就是一个非常大的价值创造。我们的财务、人力资源、供应链、IT部门，会有大量的工种被接管，而这种接管也不是刚刚开始，而是在加速。数智员工的本质是机器人，这将为人类社会带来前所未有的第三次解放，使人们从繁琐重复的工作中解脱出来。 2B市场需要更多“效率型”的机器人，帮助提高企业的运营效率和生产力；2C市场则需要更多“杀时间型”的机器人，主要提供陪伴、聊天、康养等服务，满足人们的情绪价值和精神陪伴。 IDC报告指出，2024年，45%的重复工作任务将通过使用由AI、机器人流程自动化（RPA）提供支持的“数智员工”实现自动化。数智员工将接管90%的人类工作，财务、人力资源、供应链、IT部门的大量员工会因为AI的加入而加速解放。主持人：现在很多人认为，数智员工和机器人将导致大面积的人类失业，您如何思考这个问题？颜艳春：这是一个新文明的结构性变迁。工业文明把人变成机器，智业文明把机器变成人。表面看起来，工业文明让99%靠农村土地吃饭的农民失业了，但他们快速地涌入到城市，在轰鸣的工业流水线上和繁忙的写字楼里，找到了更好的工作，收入是原来的10倍。这一次，智业文明也可能让99%靠工厂和办公室吃饭的工人、白领失业了，但他们每个人也将在智业文明的新流水线上重新找到自己的工作或生命的意义。虽然AI劳动力的发展可能会夺取了人类的很多工作，但它们的主要目的是提高生产力。未来，人类可以将更多的精力投入到创造性、创新性的工作中，实现更大的价值。这一切预示着，未来人类、数字人类以及更高级的人工智能将共同组成一个巨大的劳动力军团，不仅改变物质文明，也将极大丰富人类的精神文明。随着AI技术的发展和普及，未来的经济形态将是基于AI劳动力的服务和创造力，从而引领人类社会进入一个新的文明时代。数智人类和硅基人类将带来劳动力的根本性变革，人们对于未来工作的担忧，与农业文明向工业文明过渡时期农民的担忧相似。当时，许多农民转向城市工作，找到了收入远超过农业劳动的职业。这一历史转变给我们的启示是，尽管技术进步会导致某些职业的消失，但它也会创造出新的就业机会和提升生活质量。在未来，每个人可能都能通过AI创建出数十甚至数百个数字分身，这些分身可以承担各种工作，从而极大地提高个人的生产力和创造力。例如，未来明星可以训练自己的AI分身成为运动教练，陪伴粉丝跑步、聊天和唱歌，从而为粉丝提供更加个性化和丰富的体验。这种方式，个人的经济收入可能因为AI的劳动力而显著增加，使得人们只需少量工作便可获得以往难以想象的收益。比如肖战可以武装100万个AI肖战，每一个他的粉丝都可以订阅AI肖战每天一起跑步，只需收取每天1元的订阅费。随着AI技术的发展，我们将迎来智业文明时代——AI和机器人不仅将在物质生产中发挥作用，还将在精神文化领域中提供服务，从而为人类社会带来全方位的劳动力支持。可以预见，将有越来越多的公司将自身定位为“劳动力公司”，专注于提供各种形式的AI劳动力服务。未来，每个人、每个企业、每个国家、每个军队都可以低成本训练并武装一个高智商或高情商的机器人或AI劳动力团队，收获这个万亿美金的AI劳动力市场的巨大红利。主持人：我很好奇，您为什么选择了数智员工这个赛道？您在这个领域有什么隐形资产（指资源、积累等）吗？胡伟：创业初期，我主要从事人才业务，这一选择受到在华为15年工作经验的影响。华为在这15年内从一万多人发展到18万人，我深刻认识到，人才是企业发展的核心。无论是腾讯、百度、阿里，还是国有企业和顶尖民企，成功的企业都非常重视人才招聘。因此，创业前几年我致力于建立人才平台，服务不同公司的招聘需求，深入理解人才市场。随着美国GPT大模型的发布，计算机获得了类似人脑的思维能力，这标志着AI技术的一个重大突破。突然之间，AI拥有了以往不具备的能力，这让我意识到，我们应该尝试利用这一技术，创建“数智员工”。过去的AI技术水平相当于5到6岁儿童的智商，不足以完成工作任务；但如今，AI的能力已经大大提高。我认为，作为一家创业公司，我们应该迅速行动，抓住这一新兴市场的机会。幸运的是，我们遇到了愿意与我们进行协同创新的客户，他们提供了场景、时间、数据和业务支持。一年的努力让我们更加确信，投身数智员工领域是正确的选择，是进入一个全新时代的大门。我们坚信，数智员工将像智能手机一样普及，成为人人必备的数字助理，每家公司都会拥有在不同岗位工作的数智员工。通过半年到一年的不懈努力，我们已经取得了一些市场进展，坚定不移地选择了数智员工作为我们的战略方向。主持人：我看到您的客户都是很知名的，比如新能源巨头比亚迪，您是如何发现比亚迪的需求、如何满足这些需求的呢？胡伟：在过去几年的创业过程中，比亚迪成为了我们的一个重要战略客户，特别是在人才招聘方面。比亚迪对基层人员的需求量巨大，这意味着有大量的、重复性的招聘工作需要完成。了解到这一点后，我们开始与比亚迪进行合作，定制和开发‘’数智招聘助理”，以提高招聘效率。我们对比亚迪招聘人员的工作习惯和行为进行了深入研究，并将这些拆解成可操作的SOP流程，让数智员工来辅助人类员工，使他们能够更高效地工作。早期的试点成功后，我们收到了积极的用户反馈，并根据用户的具体需求和特征进行了持续的优化和迭代。数智员工的特点包括能够长时间在线、具有学习和记忆能力，以及得益于背后的大模型，具备更高的智能。这些特点使得数智员工在质量和效率上能够超越传统的人类员工，为客户提供更优的解决方案，实现降本增效。此外，随着数字化招聘的发展，我们能够在校招领域通过AI技术，识别并挖掘那些可能被忽略的优秀学生，无论他们来自何种背景或学校。这不仅扩大了企业的人才筛选范围，也为那些来自非顶尖学校的优秀学生提供了机会，体现了数智员工在招聘过程中的独特价值和重要性。主持人：在这个接触和实施过程中，有没有什么是和您想象的不一样的？胡伟：在华为多年的经验教会我们，以客户为中心，深入了解客户的具体诉求是公司的核心特征。我们会在项目的早期阶段就派遣需求分析师和解决方案经理入驻企业，与客户共享我们的认知，并深度参与到他们的业务流程中去，以确保我们充分理解他们的需求。比如，在与比亚迪的合作中，我们最初认为找简历可能是他们的痛点。然而，实际情况是，比亚迪每天收到成千上万份简历，他们的真正挑战在于无法有效处理这些海量的简历信息。我们的数智员工不仅能够帮助他们审查当前投递的简历，还能激活和利用之前积累的、未得到充分利用的简历资源。这种深入客户业务流程的做法，让我们能够定制出真正符合客户期待的解决方案，在大模型时代，甚至多次超出客户的预期。我们坚信，通过深入理解并解决客户的实际需求，我们能够提供更加高效和精准的服务，实现客户价值的最大化。主持人：在比亚迪，您的服务有什么可量化的成果可以和大家分享？胡伟：数智员工作为招聘专员的效率显著高于自然人，平均产出是自然人的三到五倍。这种高效的产出主要体现在处理简历和与候选人沟通的数量上。例如，一个自然人每天最多可能只能查看100份简历和联系30个人，而数智员工则可以达到这个数字的三到五倍，能够发起更多的沟通交流，并约请候选人参加面试。在阅读简历方面，数智员工的效率更是远超人类，能够在一分钟内阅读上千份简历，并且生成匹配度报告，这是人类所无法比拟的。这种从端到端的流程优化，大大提高了招聘的效能和效率。最终衡量的不仅仅是这些过程指标，而是为客户创造的实际价值。以招聘成功的人数计算，数智员工至少能为客户带来三到五倍的结果，这在最终的招聘成果上体现了其显著的价值和效率。主持人：我看到您的客户中还有95后、00后们最爱的Bilibili，我很好奇，B站和比亚迪在数智员工方面有什么需求差异么？胡伟： B站，作为一个深受年轻人喜爱的平台，以其开放创新的态度，成为我们合作讨论数智员工事宜的首选。 B站作为视频内容的领头羊，面临大量视频审核需求，迫切需要机器与人的协同审核。因此，我们联合开发了一些能够代替真人进行视频审核的数智员工。与比亚迪相比，B站的需求非常明确和精准，主要集中在视频审核岗位，这让我们能够快速针对性地开发和优化。与B站的顺利合作得益于其对创新的开放态度和提供的合作场景，使我们的团队能够深入了解并迅速适应B站的具体需求。这种合作不仅加速了迭代过程，也让我们的数智员工能够有效地融入B站的运营，特别是在视频审核这一关键领域。主持人：那么，在B站，有什么可以分享的、可量化的成果吗？胡伟：视频审核工作由于其辛苦性质，要求审核员长时间盯着屏幕，不仅工作强度大，而且对视力影响巨大，导致工作流动性高。因此，B站内部会定期调岗，让员工转做客服或其他工种以减轻眼睛疲劳。由于这个岗位的特殊性，招聘需求量大。我们的数智员工一上线，就以传统人工效能的三倍开始，这已经超出了B站初期的预期。而且，由于这些岗位的需求非常明确，数智员工的效率最终可以达到五到八倍，大幅提高了审核效率。在今天大模型的时代，传统人工的方式相比之下，转速有限。一个大模型的计算能力和速度，可以远超一百个人的工作产出，主要是计算机后台的算力能力所决定的。这种能力的提升，真正意义上提高了工作的效能。我常开玩笑说，我们的数智员工都具有顶尖院校的研究生水平。但是，这样高水平的员工在企业中必须有明确的岗位指派，否则即便是拥有清华、北大背景的人才，若岗位不明确，也不知道应该做什么。在企业中，那些可量化、可规范、可流程化的工作，尤其适合让数智员工来承担，这无疑会大幅提升企业的效率和效能。在当前的经济环境下，所有公司都面临降本问题，提高效率实际上等同于降低成本。另一个重要的方面是，数智员工在工作时不会偷懒，总是一丝不苟。比如在阅读简历、与人交流的任务中，如果要求与1000人打招呼，它们就会毫不遗漏地完成这1000次的交流，不会像人类可能出现的看了800份就声称看完了1000份的情况。从本质上讲，数智员工在效能和效率上具有天然的优势。主持人：数智员工行业，您觉得从技术上主要难度是什么？（比如大模型选择、模型微调、数据收集/训练等等）胡伟：大模型时代的真正挑战在于业务场景的深入洞察和应用侧的有效发力。尽管大模型拥有强大的能力，但如果无法精准应用，其潜力便难以充分发挥。核心问题在于对业务场景的深入理解和对应用层面分析的精确把握。例如，基于对人才招聘深度了解，我们开发出第一个招聘专员数智员工，以及针对企业知识传递和流通不畅的问题，创建数智博士来优化知识管理和分享流程，实现了对业务场景的精准把握和应用的有效实施。其次，技术层面如何使大模型与客户应用场景紧密衔接，是另一个关键点。这涉及到技术细节的梳理、书写约束等，是数智员工在企业中顺利运行的重要技术基础。大模型的选择和定制化调整也非常关键，合作与微调基于其持续训练至关重要，决定了数智员工的智能水平和实用价值。大模型战的背景下，选择合作的大模型和对其进行长期训练成为确保数智员工高效运作的必要条件。总之，大模型时代对业务场景的深刻理解和技术的精准应用是实现其潜力的关键，而在技术选择和调整上的精细操作则是确保实用性和效率的基础。主持人：从您服务比亚迪、B站等诸多客户的经验看，您认为商业化角度面临的难点是什么呢？胡伟：面对新事物的认知和客户付费习惯需要时间去培养，尤其是在大多数客户的预算中未曾设立购买数智员工的一项。这一认知转变需时，同时，商业的本质在于为用户创造价值，能够解决用户的实际问题和痛点。例如，数智员工近期学会编写PPT，满足了广泛的企业和个人需求，这就是直击用户痛点的服务。商业化的成功依赖于对用户需求的精确把握和价值创造。数智员工作为一种新兴服务，其商业化过程中的定价可以与传统员工的产出和成本进行比较，以此作为定价基准。数智员工的优势在于效率高且无需额外的福利成本，从而为企业提供高性价比的服务。商业化新生事物需企业、用户和同行的共同努力推动，正如知识付费和视频订阅服务逐渐被市场接受一样。只要服务能创造价值，就能找到其商业化的道路。对于数智员工而言，它们通过提高工作效率、节省成本等方式为企业创造价值，自然会有其商业化的可能性和空间。整个行业和市场的共同参与和推进，将有助于新业态的定义和商业化过程。主持人：对于一个企业来讲，人工快速的离职调整，是非常可怕的一件事，不仅是招聘成本，招聘时间的问题。更在于好不容易他把一个东西给掌握了，又得换一个人，再来一个新人又好几个月去熟悉，成本巨大。我觉得数智员工在方面可能也是非常重要的，他不会离职，永远跟你在一起。您怎么看？胡伟：我觉得这才是企业最大的浪费。面对人才流失所导致的“隐形浪费”，数智员工的稳定性和忠诚度提供了一种创新解决方案。与传统员工相比，数智员工作为具有突破性的创新劳动力，不仅能快速适应工作需求，还能长期为企业服务，避免了人才培养后流失所造成的资源浪费。正如华为在2010年预见到智能手机将成为未来趋势一样，当前大模型技术的发展正推动着数智员工概念的普及。如同智能手机重塑了人们的生活方式，数智员工有望在工作和日常生活中发挥重要作用，成为个人和企业不可或缺的助手。预计在不久的将来，每个人都将拥有至少一个数智员工助理，这些助理将在多个方面提供帮助，包括但不限于行程安排、营销策划、甚至家庭教育等。这些数智员工将能够适应用户的个性化需求，提供定制化服务。这种趋势的到来将极大地提高工作效率和生活质量，同时，也意味着对于企业和个人来说，理解并运用这项技术将成为必备的能力。未来，数智员工将成为人类生活中不可或缺的一部分，它们的发展和应用将持续推动社会和经济的变革。主持人：您觉得数智员工在哪些方面可以替代于员工？在哪些方面可能还是需要跟人进行一个紧密的合作的？胡伟：首先，我想强调一个概念：数智员工与人类员工之间不是替代关系。我们公司近期总结了一句话，我认为非常精辟：“每上线一个数智员工，就会创造一个新的工作岗位。”这句话可能会让人觉得抽象，有人可能会问：数智员工不是用来替代人类的吗？实际上，数智员工并不会替代人类。回想2000年，我第一次接触电脑时，那时候对电脑的敬畏如同对待一种神秘的存在。那时有声音称，电脑的强大存储和计算能力会替代许多人的工作。然而，随着时间的推移，我们看到电脑并没有替代人类，反而每多一台电脑，就多了一个工作岗位。我们团队认为，每上线一个数智员工，实际上是为人类工作者提升效能和效率，把人类从标准和重复的工作中解放出来，继而专注于更重要的思考和创造性、创意性和情感性的工作。因为人类是需求的创造者，我们需要通过科技的进步提高效率。例如，以前老师用笔写字，一天能写的字数有限，但现在使用计算机打字，一天能打出的字数远超以往。这并不意味着技术的进步会替代人类的工作，而是提高了我们的沟通效率，使我们能够探讨更多的事情，推动更多的创新。此外，我想强调，“被AI替代的不是人类工作，而是那些不愿意学习和使用AI的人。”人类是需求的创造者，我们应当拥抱技术进步，让它帮助我们工作得更高效。就像过去电脑和手机的普及一样，数智员工的广泛应用也不会替代人类，而是开创新的工作机会，提升工作效率。主持人：数智员工部署起来麻烦吗？胡伟：部署数智员工非常简便，只需开通一个账号，你便可以开始与其交流和工作。明确你的需求和要求，数智员工能够与你进行多轮交流，并在每轮交流后反问三个问题以确保更准确地理解和补充你的需求。对于大多数企业和场景而言，数智员工旨在替代简单重复的工作，因此部署过程并不复杂。对于有特别数据保密和安全要求的巨型企业和政府机构，则需要考虑私有化部署。但总体来说，数智员工的价值在于简化和高效化工作流程，而非处理极端复杂的任务。简而言之，数智员工的部署和使用过程旨在为用户提供便捷性，使他们能够快速投入使用，提升工作效率。主持人：如果让您专门给致力于做数智员工的创业者一些分享，您会给他们怎么样的建议呢？胡伟：第一，抓住数智员工浪潮，成为创业领域的先锋，是一次千载难逢的机会。在过去的移动互联网和互联网时代，许多人可能错过了把握机遇的时刻。但现在，面对数智员工这一新兴领域，每个创业者都应当珍惜这一波浪潮。第二，选择一个具有广阔前景的赛道并专注于一个小切口深耕，做到足够扎实，而非贪多嚼不烂，是建立伟大公司的关键。 (本文来源盛景新经济，如有侵权请联系删除)

2024-04-08 10:02:39 98

揭秘吴恩达的4种 AI Agent 设计模式

揭秘吴恩达的4种 AI Agent 设计模式

上周，吴恩达教授在美国红杉 AI 活动上关于 Agent 的最新趋势与洞察，提出了目前有 4 种主要的 Agent 设计模式，分别是：Reflection：让 Agent 审视和修正自己生成的输出；Tool Use：LLM 生成代码、调用 API 等进行实际操作；Planning：让 Agent 分解复杂任务并按计划执行；Multiagent Collaboration：多个 Agent 扮演不同角色合作完成任务；在扣子（coze.cn）/Coze （coze.com）上，可以将上述四种模式快捷落地，本文将以汽车行业调研助手、高质量旅行规划助手等实际案例来为大家分享落地思路。1 Reflection模式含义：让 Agent 审视和修正自己生成的输出。背景：大模型的生成有时候会犯懒，可能只会部分执行Prompt导致效果有限。Reflection模式适用于让LLM自行审视和修正自己生成的输出，对生成内容进行多次自我调优，进而生成更加优质的内容。场景：让 AI 或 LLM 说，写一个行业短评。开始写第一稿，自己阅读生成第一稿，思考哪些部分需要修改，然后，LLM进一步优化生成，可以一遍又一遍地进行。因此，这个工作流程是可迭代的，你可能让模型进行一些思考，然后修改文章，再思考，并通过多次迭代来完成这个过程。流程图： Workflow实现简单“行业短评”效果工作流拆解：第一步：Start节点，用于接收用户的输入。第二步：大模型节点，行业短评Prompt：使用真实数据、案例、SWOT模型，并言简意赅表达。第三步：基于其生成结果第二步中的大模型的生成结果，复制其Prompt，并进一步提示生成短评，达到审视和修正自己生成输出的效果，提高短评生成质量。第四步：输出结果。示意图参考：效果：汽车行业调研短评第一次：大模型对于提示，仅生成比较概括性的短评，使用了真实数据。第二次：大模型对生成结果进行迭代，生成了详细短评，不仅优化了表达内容，还增加了SWOT分析和案例分析。2 Tool Use 模式扣子/ Coze 本身就支持非常丰富的工具调用，欢迎使用！3 Planning 模式含义：Planning：让 Agent 分解复杂任务并按计划执行；背景：大模型的生成依赖于训练数据的实效性，并且有时候会产生幻觉，导致生成的内容效果质量有限。Planning模式适用于让LLM基于计划好的任务步骤，对生成内容进行多次自我调优和加工处理，进而生成更加优质的内容。场景：我们期望Agent具备类似人的行为的智能体，比如在调研报告场景，他会先使用搜索工具进行检索，筛选质量较高的内容，再进行一些思考，再进行重要信息的总结和整理，最后输出一个质量比较高的报告。流程图： Workflow实现Plannning模式的“行业短评”效果工作流拆解：第一步：Start节点，用于接收用户的输入。第二步：通过“浏览器插件”，把用户的输入作为关键字进行搜索，返回相关的10个网站链接。第三步：通过“头条搜索”访问这10个网站的详情内容，并返回。第四步：使用大模型对这10个网站的内容进行打分，3分以上推荐引用。第五步：通知用户：目前Agent已经完成阅读，正在整理并总结报告。第六步：大模型对高分内容进行理解，使用真实数据、案例、SWOT模型等，并言简意赅表达。第七步：输出报告。示意图参考：效果：奶茶行业调研短评第一步： Agent完成网站访问和内容抽取后，告知了完成阅读。第二步：参考了他访问的一些网站内容，整理并总结了报告，最后打印报告输出。4 Multiagent Collaboration 模式使用coze的Multi-agent功能实现高质量旅行规划第一步：定义3个用于旅行规划场景的专家Agents目的地推荐专家：调用搜索等能力，基于用户的需求推荐目的地。机票酒店专家：调用机票、酒店的查询工具，根据用户的背景信息和诉求，推荐合适的机票酒店。行程规划专家：根据用户的信息和其他专家产出的结果，帮助用户制定完整的行程规划，并将内容输出到PDF中。第二步：将3个专家Agents排列到画布中，并为他们设置任务交接的条件。第三步：开始对话三种模式的对比： (本文来源字节跳动技术团队，如有侵权请联系删除)

2024-04-08 09:59:12 83

免费无限换脸，下一代AI换脸神器Facefusion来了

免费无限换脸，下一代AI换脸神器Facefusion来了

Facefusion，之前介绍过的一款超炫的AI视频/图片换脸项目，它的官方介绍简单而直接：下一代换脸器和增强器。但是，别小看这简单的介绍，它可是有很多新鲜玩意儿的，今天带来最新的2.2.1版本。Facefusion2.2.1新版本介绍Facefusion2.2.1版本全新升级了界面设计，现在你可以在网页上打开操作页面，就像Stable Diffusion一样，超级方便，不再需要下载繁琐的软件，随时随地换脸玩乐。新版本新增了两个超赞的功能：第一个是人脸解析功能，这意味着你可以选择替换脸部的某一部分，比如说，你可以只替换上半部分脸而保留下半部分，或者只替换左边而保留右边。你还可以指定替换脸部的某个部位，比如只换左眼或者只换嘴和鼻子。这样一来，再也不用担心换脸后眼睛不好看啦！还有一个超级实用的功能是万能遮罩，你可以使用遮罩来控制换脸的细节，想要精确替换哪个部位就替换哪个。无论是眼睛、嘴巴还是鼻子，你都能完全自定义，这样一来，你的换脸作品将更加完美，不再是简单的换个脸而已！模型也得到了升级哦，现在Facefusion使用了最新的restoreformer_plus_plus模型，更加强大和稳定，它的换脸效果将更加真实、自然，让你的作品更加惊艳！离线懒人包老规矩，我已经出手，为大家制作好了一款离线整合包了，下载到本地解压即用。大家下载解压到本地。①双击“一键启动.exe”。②双击一键启动程序后，会打开一个命令提示窗口，项目会自动运行。加载成功后，请自行复制以下网址在浏览器打开“ http://127.0.0.1:7860/”，记得点点关注不迷路哦，后续还有更多酷炫的AI项目分享~③打开页面后，可以看到项目主界面。使用教程：① 设置人脸（Source）点击这个区域，打开文件管理器，选择一张带清晰完整人脸图片就可以了（注意图片名字用英文或数字）。② 设置目标（Target）点击这个区域，选择待换脸的目标图片，或者视频。③ 效果预览（Preview）完成上述两步后，软件会自动开始运行，之后会把换脸预览显示在这个区域。如果目标是图片，预览区域就是换脸后的结果了。如果目标是视频的话，会截取第一帧作为预览效果。④ 开始换脸（Start）一切就绪之后，就可以点击start按钮开始正式换脸了。⑤ 查看结果（OUTPUT）换脸成功之后，最终结果显示在output这里，点击右上角的下载图标，就可以把结果保存到本地。以下是我亲测的换脸效果：Facefusion对电脑要求并不高，特别是懒人包，解压就能使用，就算没有显卡，也可以用CPU版本。所以大部分小伙伴应该都可以畅快体验啦，快来下载试试这个超酷的Facefusion吧，一起享受AI的神奇。注意事项：①该项目建议使用英伟达显卡运行，CPU也能跑但比较慢，可以在界面中选择使用CPU还是GPU跑。②软件路径、图片和视频文件的名称和路径都不能包含中文，不然可能会出错。另外，计算机系统的用户名也不要设置成中文，不然也可能会出现问题。③系统要求：支持Windows 10和Windows 11今天就聊到这了，我是Glen，感谢你看我的文章，欢迎大家继续支持我，请点赞、在看、分享三连走一波吧~扫码免费获得本文资源~

2024-02-13 11:41:07 345

免费AI一键换脸离线整合包，支持直播实时换脸！

免费AI一键换脸离线整合包，支持直播实时换脸！

分享一款AI一键免费无限换脸工具FaceFusion，这个版本支持直播实时换脸哦~FaceFusion简介FaceFusion的基本功能跟roop类似，因为它的跟roop是同一个作者制作的。官方介绍非常霸气：下一代换脸器和增强器。之前制作过整合包CPU版，今天给大家分享支持GPU加速以及直播实时换脸的新版。整合包使用教程大家将整合包下载到电脑里，解压后，打开文件夹。①需要先安装Microsoft Visual C++ 2015组件：这个是在浏览器打开FaceFusion可视化界面必备的组件，已经放在了整合包中了，大家解压后找到“VC_redist.x64.exe”文件，然后双击安装即可。②点击“一键启动”：大家可以按自身需求，选择不同的启动方式。一键启动-CPU：使用CPU进行换脸，适用于几乎所有电脑（Windows 7不支持）一键启动-GPU：支持N卡进行图片、视频换脸加速。一键启动-实时换脸：支持N卡进行实时视频换脸，可用于直播（注意，需要设备有摄像头）。之后会打开一个命令提示窗口，等待片刻，可以看到链接“http://127.0.0.1:7860”，复制它，在浏览器打开，即可开始快乐地玩耍了~下图是我使用实时换脸的效果图，用了iKun，感觉效果还挺有趣的哈哈哈~以上就是今天的所有内容了。扫码免费获得本文资源~

2024-02-13 11:12:00 237

最新版AI数字人离线版，真解压即用！

最新版AI数字人离线版，真解压即用！

之前给大家介绍过一款AI数字人开源项目SadTalker，并且制作了一款本地离线版，解压即可用。最近发现原项目作者更新了一些模型和依赖，于是我又制作了一款离线整合包，并且把之前需要设置ffmpeg的问题也一并解决了，现在这个整合包是真的下载到本地，解压即用！直接上手只需要下载整合包（文末附下载），然后双击“一键启动.exe”，即可快速使用。之后会打开命令提示窗口，等待片刻，可以看到网址“http://127.0.0.1:7860”。将网址复制一下，然后在浏览器打开，即可看到以下主界面：使用教程可以查看往期内容，三步即可制作一个专属的数字人视频（合成语音+照片生成+视频合成）：免费无限制作专属AI数字人我试了下，生成的数字人视频速度要快一些，效果也比之前的版本更好一些~台词选取自王家卫《花样年华》："如果多一张船票，你愿不愿意跟我一起走？" "如果有多一张船票，你会不会带我一起走？”"樱花只开一季，真爱只有一次。如果只是寂寞，请不要爱我"。我相信除了寂寞，缘分是男人和女人之间相爱的另一种原由。因为缘分而使两颗寂寞的心结合的爱情称为真爱。寂寞是每时每刻，缘分是不知不觉，真爱是一生一世。那些消逝了的岁月，仿佛隔着一块积着灰尘的玻璃，看得到，抓不着。那是一种难堪的相对。她一直低着头，给他一个接近的机会。他没有勇气接近，她掉转头，走了。能忘了的就忘了吧，能记得都不必记得。有些话太久没说，也就懂了。扫码免费获得本文资源~

2024-01-29 14:06:30 330

社群

人工智能学堂加入

扫描二维码

Glen 加入

扫描二维码