了解机器学习的三张图片:基本概念,五大类型和九种常用算法
  时间:2019-03-04 18:09:15 来源: 杏彩注册 作者:匿名


机器学习正在取得进展,我们似乎不断接近我们心中的人工智能目标。语音识别,图像检测,机器翻译和风格迁移等技术已经开始应用于我们的现实生活中,但机器学习的发展仍在继续,甚至被认为有可能彻底改变人类文明的发展方向。甚至是人类自己。 。

但是你了解现在发生的变化吗?普华永道(普华永道)是四大会计师事务所之一,最近发布了几个图表,解释了机器学习的基础知识,介绍了机器学习的基本概念,原理,历史,未来趋势和一些常用算法。为了方便读者阅读,机器的核心已编译和拆分这些图表,这三个内容分三部分介绍,希望能帮助您进一步阅读。

一,机器学习概述

1.什么是机器学习?

机器通过分析大量数据来学习。例如,不需要以编程方式识别猫或面部,可以通过使用图像来总结和识别特定目标来训练它们。

2.机器学习与人工智能之间的关系

机器学习是一种研究和算法,侧重于查找数据中的模式并使用它们进行预测。机器学习是人工智能领域的一部分,与知识发现和数据挖掘相交叉。

3.机器学习如何运作

1选择数据:将数据分为三组:训练数据,验证数据和测试数据;

2模型数据:使用培训数据构建使用相关功能的模型;

3验证模型:使用验证数据访问您的模型;

4测试模型:使用您的测试数据检查验证模型的性能;

5使用模型:使用完全训练的模型来预测新数据;

6调整模型:使用更多数据,不同功能或调整参数来提高算法的性能。

4.机器学习的位置

1传统编程:软件工程师编写程序来解决问题。首先是一些数据→为了解决问题,软件工程师编写一个过程来告诉机器该做什么→计算机跟踪过程然后产生结果;

2统计:分析师比较变量的关系;3机器学习:数据科学家使用训练数据集来教授计算机做什么,然后系统执行任务。首先是大数据→机器将学习使用训练数据集进行分类,调整具体算法以实现目标分类→计算机可以学习识别数据中的关系,趋势和模式;

4智能应用:智能应用中使用智能智能的结果,如精确农业的应用案例所示,是基于无人机收集的数据。

5.机器学习的实际应用

机器学习有很多应用场景。这里有些例子。你会怎么用?

快速3D地图绘制和建模:为了建造铁路桥梁,普华永道的数据科学家和领域专家将机器学习应用于无人机收集的数据。这种组合可以在工作成功时实现精确监控和快速反馈。

增强分析以降低风险:为了检测内部交易,普华永道将机器学习与其他分析技术相结合,以开发更全面的用户档案,并更深入地了解复杂和可疑行为。

预测表现最佳的目标:普华永道使用机器学习和其他分析方法来评估不同马匹在墨尔本杯上的潜力。

第二,机器学习的演变

几十年来,人工智能研究人员的各种“部落”一直在争夺主导地位。是时候让这些部落团结起来了吗?他们也可能必须这样做,因为合作和算法融合是实现真正的通用人工智能(AGI)的唯一途径。这是机器学习方法的演变和未来的可能出现。推荐阅读《图解机器学习》

五大学校

1象征:使用符号,规则和逻辑来表示知识和逻辑推理,最喜欢的算法是:规则和决策树;

2贝叶斯:得出发生概率推理的可能性,最喜欢的算法是:朴素贝叶斯或马尔可夫;

3连接主义:使用概率矩阵和加权神经元来动态识别和总结模式,最喜欢的算法是:神经网络;

4进化论:产生变化,然后为特定目标获得最佳变化,最喜欢的算法是:遗传算法;5Analogizer:根据约束优化功能(尽可能高,但不要同时离开道路)。最喜欢的算法是:支持向量机。

2.进化的阶段

20世纪80年代

领导类型:象征主义

架构:服务器或大型机

领导理论:知识工程

基本决策逻辑:决策支持系统,实用性有限

1990年至2000年

领先类型:贝叶斯

架构:小型服务器集群

主导理论:概率论

分类:可扩展的比较或比较对于许多任务来说都足够好

2010年初至中期

领导类型:连接主义

架构:大型服务器场

主导理论:神经科学和概率

识别:更准确的图像和声音识别,翻译,情感分析等。

预计这些类型将合作并将其方法结合在一起

2010年末

领导类型:连接主义象征主义

建筑:很多云

领先理论:记忆神经网络,大规模集成,基于知识的推理

简单的问答:狭隘的,特定领域的知识共享

2020

领导类型:联结主义象征主义贝叶斯......

架构:云计算和雾计算

主导理论:当你理解和工作时,你会看到网络

简单的感知,推理和行动:有限的自动化或人机交互

2040年代

领先类型:算法融合

架构:无处不在的服务器

领先理论:元学习的最佳组合

感知和回应:根据通过多种学习方法获得的知识或经验采取行动或做出回应

三,机器学习算法

你应该使用哪种机器学习算法?这在很大程度上取决于每个特定用例中可用数据的性质和数量以及您的培训目标。除非结果值得额外的成本和资源,否则不要使用最复杂的算法。以下是一些最常用的算法,按易用性排序。

1.决策树:在逐步响应过程中,典型的决策树分析使用分层变量或决策节点。例如,给定用户可以被归类为信誉良好或不可靠。

优点:擅长评估人,地点和事物的各种特征,品质和特征场景示例:基于规则的信用评估,赛马结果预测

2.支持向量机:基于超平面,支持向量机可以对数据组进行分类。

优点:支持向量机在变量X和其他变量之间的二进制分类方面表现优异,无论关系是否为线性。

场景示例:新闻分类,手写识别。

3.回归:回归可以概述因变量和一个或多个因变量之间的状态关系。在此示例中,区分垃圾邮件和非垃圾邮件。

优点:回归可用于识别变量之间的连续关系,即使关系不是很明显

场景示例:道路交通流量分析,邮件过滤

4.朴素贝叶斯分类:朴素贝叶斯分类器用于计算可能条件的分支概率。每个单独的功能都是“简单”或有条件独立,因此它们不会影响其他对象。例如,在一个总共有5个黄色和红色球的罐子里,连续获得两个黄色球的可能性是多少?从图的顶部分支可以看出,前后抓住两个黄球的概率是1/10。朴素贝叶斯分类器可以计算多个特征的联合条件概率。

优点:朴素贝叶斯方法可以快速对在小数据集上具有重要特征的相关对象进行分类。

场景示例:情绪分析,消费者分类

5.隐马尔可夫模型:显式马尔可夫过程是完全确定的——给定状态通常伴随着另一个状态。交通信号灯就是一个例子。相反,隐马尔可夫模型通过分析可见数据来计算隐藏状态的发生。随后,利用隐藏状态分析,隐马尔可夫模型可以估计可能的未来观察模式。在这种情况下,高压或低压(隐藏)的概率可用于预测晴天,下雨,阴天的概率。

优点:允许识别和预测操作的数据可变性场景示例:面部表情分析,天气预报

6.随机森林:随机森林算法通过使用随机选择的数据子集的多个树来提高决策树的准确性。在这种情况下,在基因表达水平检查了大量与乳腺癌复发相关的基因,并计算了复发的风险。

优点:随机森林方法已被证明对大型数据集和具有大量且有时不相关的特征的项目非常有用。

场景示例:用户流失分析,风险评估

7.递归神经网络:在任何神经网络中,每个神经元通过一个或多个隐藏层将许多输入转换为单个输出。递归神经网络(RNN)逐层传递值,使得逐层学习成为可能。换句话说,RNN具有某种形式的存储器,允许先前的输出影响后续输入。

优点:当存在大量有序信息时,循环神经网络具有预测能力

场景示例:图像分类和字幕添加,政治情绪分析

8.长期短期记忆(LSTM)和门控复发单位nalual网络:早期RNN表格已耗尽。尽管这些早期循环神经网络仅允许保留少量早期信息,但最近的长期和短期记忆(LSTM)和门控循环单元(GRU)神经网络具有长期和短期记忆。换句话说,这些最近的RNN具有更好的控制存储器的能力,允许它们保留较早的值或在必要时重置它们以处理许多系列步骤,这避免了“梯度衰减”或逐层值。最后的退化。 LSTM和GRU网络允许我们使用称为“门”的存储器模块或结构来控制存储器,该存储器模块或结构可以在适当的时间传递或重置值。

优点:长期和短期记忆和门控循环单元神经网络具有与其他循环神经网络相同的优点,但它们更常用,因为它们具有更好的记忆能力。场景示例:自然语言处理,翻译

9.卷积神经网络:卷积是指来自后续层的权重的融合,可用于标记输出层。

优点:当存在非常大的数据集,大量特征和复杂的分类任务时,卷积神经网络非常有用。

场景示例:图像识别,文本到语音,药物发现

购买一些科目



地址:北京市石景山区石景山路20号

邮编:100635

电话:010-51885635

传真:010-68680635     

友情链接