监督学习和无监督学习的区别是什么?

在人工智能和机器学习方面,有监督学习和无监督学习的区别是什么? 你能举个例子简单地解释一下吗?< / p >
173092 次浏览

监督式学习是当你给你的算法提供的数据被“标记”或“标记”,以帮助你的逻辑做出决定。

示例:贝叶斯垃圾邮件过滤,您必须将一个项目标记为垃圾邮件以优化结果。

无监督学习是一种算法,它试图在没有原始数据以外的任何外部输入的情况下找到相关性。

例如:数据挖掘聚类算法。

例如,训练神经网络通常是监督学习:你告诉网络你输入的特征向量对应于哪个类。

聚类是无监督学习:你让算法决定如何将样本分组到具有共同属性的类中。

另一个无监督学习的例子是Kohonen的自组织地图

我一直认为无监督学习和有监督学习之间的区别是随意的,有点令人困惑。这两种情况之间没有真正的区别,相反,在一系列情况下,算法可以或多或少地“监督”。半监督学习的存在是界限模糊的一个明显例子。

我倾向于认为监督是对算法提供关于应该首选哪些解决方案的反馈。对于传统的监督设置,比如垃圾邮件检测,你告诉算法"不要在训练场上犯任何错误";对于传统的无监督设置,比如聚类,你告诉算法“彼此接近的点应在同一聚类中”。很巧的是,第一种反馈形式比后者更具体。

简而言之,当有人说“有监督”时,想想分类,当他们说“无监督”时,想想聚类,尽量不要过于担心除此之外的问题。

监督式学习

训练数据包括输入向量的示例及其相应的目标向量的应用被称为监督学习问题。

无监督学习

在其他模式识别问题中,训练数据由一组输入向量x组成,没有任何对应的目标值。这种无监督学习问题的目标可能是在数据中发现相似的例子组,在这里它被称为聚类

模式识别和机器学习(Bishop, 2006)

既然你问了这个非常基本的问题,似乎有必要详细说明机器学习本身是什么。

机器学习是一类数据驱动的算法,也就是说,与“普通”算法不同,它是数据“告诉”什么是“好答案”。例如:一个假想的用于图像中人脸检测的非机器学习算法将尝试定义一张脸是什么(像皮肤一样颜色的圆形圆盘,在你认为是眼睛的地方有深色区域等)。机器学习算法不会有这样的编码定义,而是会“通过实例学习”:你会展示几张人脸和非人脸的图像,一个好的算法最终会学习并能够预测一张看不见的图像是否是人脸。

这个特殊的人脸检测的例子是监督,这意味着你的例子必须是标签,或者显式地说哪些是人脸,哪些不是。

无人管理的算法中,你的例子不是标签,也就是说你什么都没说。当然,在这种情况下,算法本身不能“发明”脸是什么,但它可以尝试将数据集群到不同的组,例如,它可以区分脸与风景非常不同,而风景与马非常不同。

因为另一个答案提到了它(虽然,以一种不正确的方式):有“中间”形式的监督,即semi-supervised主动学习。从技术上讲,这些都是有监督的方法,其中有一些“聪明”的方法来避免大量的标记示例。在主动学习中,算法自己决定你应该给哪些东西贴上标签(例如,它可以非常确定一幅风景和一匹马,但它可能会让你确认大猩猩是否确实是一张脸的照片)。在半监督学习中,有两种不同的算法,它们从标记的示例开始,然后“告诉”彼此它们对大量未标记数据的思考方式。他们从这种“讨论”中学习。

我可以给你们举个例子。

假设您需要识别哪些车辆是汽车,哪些是摩托车。

监督学习案例中,你的输入(训练)数据集需要被标记,也就是说,对于输入(训练)数据集中的每个输入元素,你应该指定它是代表一辆汽车还是一辆摩托车。

无人管理的学习的情况下,你不标记输入。无监督模型将输入聚类到基于相似特征/属性的聚类中。所以,在这种情况下,没有像“car”这样的标签。

在监督学习中,为输入x提供预期结果y(即,当输入x时,模型应该产生的输出),这通常被称为对应输入x的“类”(或“标签”)。

在无监督学习中,不提供示例x的“类”。因此,无监督学习可以被认为是在未标记的数据集中寻找“隐藏结构”。

监督学习的方法包括:

  • 分类(1R,朴素贝叶斯,决策树学习算法等 如ID3 CART,等等)

  • 数值预测

无监督学习的方法包括:

  • 聚类(k -均值,层次聚类)

  • 关联规则学习

< >强机器学习: 它探索了可以从数据中学习并对数据进行预测的算法的研究和构建。这样的算法通过从示例输入中构建模型来运行,以便做出数据驱动的预测或表示为输出的决策,而不是严格地遵循静态的程序指令

< >强监督学习: 这是从标记的训练数据推断出函数的机器学习任务。训练数据由一组训练示例组成。在监督学习中,每个例子都是一对,由一个输入对象(通常是一个向量)和一个期望的输出值(也称为监督信号)组成。监督学习算法分析训练数据并产生推断函数,该函数可用于映射新的示例

由“老师”给计算机提供示例输入和它们期望的输出,目标是学习将输入映射到输出的一般规则。具体来说,有监督学习算法采用一组已知的输入数据和对数据(输出)的已知响应,并训练一个模型来生成对新数据响应的合理预测。

< >强无监督学习: 它是没有老师的学习。一个基本 你可能想对数据进行可视化处理。机器学习的任务是从未标记的数据推断出一个函数来描述隐藏的结构。由于给出给学习者的例子是未标记的,因此没有错误或奖励信号来评估潜在的解决方案。这区分了无监督学习和监督学习。无监督学习使用的程序试图找到自然分区 的模式。< / p >

在无监督学习中,没有基于预测结果的反馈,也就是说,没有老师来纠正你。在无监督学习方法下,不提供标记的示例,在学习过程中没有输出的概念。因此,由学习方案/模型来寻找模式或发现输入数据的组

你应该使用无监督学习方法,当你需要一个大的 训练你的模型的数据量,以及意愿和能力 去实验和探索,当然这是一个不太好的挑战 通过更成熟的方法解决。无监督学习就是这样 可以学习比监督更大更复杂的模型 学习。在这里是一个很好的例子,它

监督学习,给出数据和答案。

给定被标记为垃圾邮件或非垃圾邮件的电子邮件,学习垃圾邮件过滤器。

给定一个被诊断为患有或没有糖尿病的患者的数据集,学习将新患者分类为患有或没有糖尿病。

无监督学习,给出没有答案的数据,让计算机对事物进行分组。

给定一组在网上找到的新闻文章,将它们分成一组关于同一故事的文章。

给定自定义数据数据库,自动发现细分市场,并将客户分组到不同的细分市场。

参考

监督式学习:你给出不同标签的示例数据作为输入,以及正确的答案。该算法将从中学习,并开始根据输入预测正确的结果。例子:邮件垃圾邮件过滤器

无监督学习:你只是给出数据,而不告诉任何东西——比如标签或正确答案。算法自动分析数据中的模式。例子:谷歌新闻

监督式学习中,我们知道输入和输出应该是什么。例如,给定一组汽车。我们得找出哪些是红的,哪些是蓝的。

然而,无监督学习是我们必须在很少或没有任何关于输出应该如何的想法的情况下找到答案的地方。例如,学习者可以建立一个模型,根据面部模式和单词(如“你在笑什么?”)的相关性来检测人们何时在微笑。

监督学习可以根据训练过程中的学习,将一个新项目标记为训练过的标签之一。您需要提供大量的训练数据集、验证数据集和测试数据集。如果你提供数字的像素图像向量以及带有标签的训练数据,那么它就可以识别数字。

无监督学习不需要训练数据集。在无监督学习中,它可以根据输入向量的差异将项目分组到不同的簇中。如果你提供像素的数字图像向量,并要求它分为10个类别,它可能会这样做。但它知道如何标注,因为你没有提供培训标签。

监督学习基本上就是你有输入变量(x)和输出变量(y),然后使用算法来学习从输入到输出的映射函数。我们称之为有监督的原因是因为算法从训练数据集中学习,算法迭代地对训练数据进行预测。 监督有两种类型:分类和回归。 分类是指当输出变量是“是/否”、“真/假”这样的类别时。 回归是当输出是真实值,如人的身高,温度等

UN监督学习是指我们只有输入数据(X),没有输出变量。 这被称为无监督学习,因为与上面的监督学习不同,它没有正确的答案,也没有老师。算法被留给它们自己的设计来发现和呈现数据中有趣的结构

无监督学习的类型有聚类和关联。

监督式机器学习

"一个算法从训练数据集学习的过程 预测输出。" < / p >

预测输出精度与训练数据(长度)成正比

监督学习是指你有输入变量(x)(训练数据集)和输出变量(Y)(测试数据集),你使用一种算法来学习从输入到输出的映射函数。

Y = f(X)

主要类型:

  • 分类(离散y轴)
  • 预测(连续y轴)

算法:

  • < p >分类算法:

    Neural Networks
    Naïve Bayes classifiers
    Fisher linear discriminant
    KNN
    Decision Tree
    Super Vector Machines
    
  • Predictive Algorithms:

    Nearest  neighbor
    Linear Regression,Multi Regression
    

Application areas:

  1. Classifying emails as spam
  2. Classifying whether patient has disease or not
  3. Voice Recognition

  4. Predict the HR select particular candidate or not

  5. Predict the stock market price

< em >监督学习< / em >

其中,用于训练网络的每个输入模式都是 与输出模式相关联,它是目标或所需的 模式。在学习过程中假定有老师在场 过程,当对网络的计算结果进行比较时 输出和正确的预期输出,以确定误差。的 错误可以用来更改网络参数,从而导致

< em > < / em >无监督学习

在这种学习方法中,目标输出不会呈现给 网络。这就好像没有老师来呈现所渴望的 模式,因此,系统通过发现和学习自己 适应输入模式中的结构特征。

我尽量简单点。

在这种学习技术中,我们得到一个数据集,系统已经知道该数据集的正确输出。这里,我们的系统通过预测自己的值来学习。然后,它通过使用代价函数来检查其预测与实际输出的接近程度,从而进行准确性检查。

在这种方法中,我们很少或根本不知道结果会是什么。因此,我们从不知道变量影响的数据中推导出结构。 我们根据数据中变量之间的关系对数据进行聚类,从而形成结构。 在这里,我们没有基于预测的反馈。< / p >

监督式学习

监督学习是基于训练一个数据样本 来自已分配正确分类的数据源。 这种技术用于前馈或多层 感知器(MLP)模型。这些MLP有三个特点 特点:< / p >
  1. 一个或多个不属于输入的隐藏神经元层 或者网络的输出层,使网络能够学习和 解决任何复杂问题
  2. 神经元活动反映的非线性为 可微的,李< / >
  3. 网络的互连模型表现出高度的 李连通性。< / >
这些特征伴随着通过训练学习 解决复杂多样的问题。学习通过 在监督神经网络模型中训练,也称为误差反向传播算法。纠错学习 算法根据输入输出对网络进行训练 采样后发现误差信号,即误差信号的差值 输出量计算和所需输出量的调整 神经元的突触权值与之成正比 函数的输入实例与错误信号的乘积 突触的重量。基于此原理,错误返回 传播学习分为两个阶段:

传球前进:

这里,输入向量呈现给网络。这个输入信号向前传播,一个神经元一个神经元地通过网络,并出现在输出端 网络作为输出信号:y(n) = φ(v(n)),其中v(n)是由v(n) =Σ w(n)y(n).定义的神经元的诱导局部场。在输出层o(n)计算的输出与期望的响应d(n)进行比较,并找到该神经元的错误e(n)。在这一过程中,网络的突触权值保持不变

向后传递:

产生于该层输出神经元的错误信号通过网络向后传播。这将计算每个层中每个神经元的局部梯度,并允许网络的突触权值按照delta规则发生变化,如下:

Δw(n) = η * δ(n) * y(n).

这种递归计算继续进行,对每个输入模式进行向前传递和向后传递,直到网络收敛。

人工神经网络的监督学习模式是有效的,可以解决分类、植物控制、预测、预测、机器人等线性和非线性问题。

无监督学习

自组织神经网络使用无监督学习算法来识别未标记输入数据中的隐藏模式。这种无监督是指在不提供错误信号来评估潜在解决方案的情况下学习和组织信息的能力。在无监督学习中,学习算法缺乏方向有时是有利的,因为它让算法回头寻找以前没有考虑过的模式。自组织映射(SOM)的主要特征是:

    它将传入的任意维度的信号模式转换为 一个或2维映射,并自适应地执行这个转换
  1. 网络表示前馈结构 计算层由一排排排列的神经元组成 列。在表示的每个阶段,每个输入信号都被保留 在正确的上下文中,
  2. 处理密切相关信息的神经元是紧密的
计算层也被称为竞争层,因为该层中的神经元相互竞争变得活跃。因此,这种学习算法被称为竞争算法。SOM中的无监督算法 工作在三个阶段:

竞争阶段:

对于呈现给网络的每个输入模式x,计算与突触权值w的内积,竞争层神经元找到一个诱发神经元竞争的判别函数,在欧氏距离上与输入权值向量接近的突触权值向量被宣布为竞争获胜者。这个神经元被称为最佳匹配神经元,

i.e. x = arg min ║x - w║.

合作的阶段:

获胜的神经元决定了合作神经元的拓扑邻域h的中心。对象之间的横向交互d来执行 合作的神经元。这个拓扑邻域在一段时间内减小了它的大小

适应阶段:

使获胜神经元及其邻近神经元能够根据输入模式增加其判别函数的个体值 通过适当的突触权重调整,

 Δw = ηh(x)(x –w).

在训练模式重复呈现后,由于邻域更新,神经网络的权重向量倾向于跟随输入模式的分布,因此神经网络在没有监督的情况下进行学习。

自组织模型自然地代表了神经生物学行为,因此被用于许多现实世界的应用,如聚类,语音识别,纹理分割,矢量编码等。

参考

监督学习基本上是一种技术,其中机器学习的训练数据已经被标记,假设是一个简单的偶数分类器,在训练过程中你已经对数据进行了分类。因此它使用“LABELLED”数据。

相反,无监督学习是一种机器自己标记数据的技术。或者你可以说这是机器从头开始自己学习的情况。

在简单的< p > 监督式学习是一种机器学习问题,其中我们有一些标签,通过使用这些标签,我们实现了回归和分类等算法。分类应用于我们的输出类似于的形式 0或1,真/假,是/否。回归应用于实际价值,如房屋价格

无监督学习是一种机器学习问题,其中我们没有任何标签,意味着我们只有一些数据,非结构化数据,我们必须使用各种无监督算法对数据(数据分组)进行聚类

监督式学习

你有输入x和目标输出t。所以你训练算法泛化到缺失的部分。它被监督是因为目标是给定的。你是管理员,告诉算法:对于例子x,你应该输出t!

无监督学习

虽然分割、聚类和压缩通常是按照这个方向计算的,但我很难给出一个好的定义。

让我们以自动编码器压缩为例。当你只有给定的输入x时,人类工程师是如何告诉算法目标也是x的。所以在某种意义上,这与监督学习没有什么不同。

对于聚类和分割,我不太确定它是否真的符合机器学习的定义(见另一个问题)。

监督学习:你有标记的数据,必须从中学习。例如,房屋数据和价格,然后学会预测价格

无监督学习:你必须找到趋势,然后预测,没有事先给出的标签。 例:班里有不同的人,然后又来了一个新同学,那么这个新同学属于哪个小组?

监督式学习:

监督学习算法分析训练数据并产生推断函数,该函数可用于映射新的示例。

  1. 我们提供训练数据,我们知道对某个输入的正确输出
  2. 我们知道输入和输出之间的关系

问题类别:

< >强回归:< / >强连续输出内预测结果=>将输入变量映射到某个连续函数。

例子:

给一个人的照片,预测他的年龄

< >强分类:< / >强在离散输出中预测结果=>将输入变量映射到离散的类别中

例子:

这个肿瘤癌变了吗?

监督学习

无监督学习:

无监督学习从未被标记、分类或分类的测试数据中学习。无监督学习识别数据中的共性,并根据每个新数据中这些共性的存在与否做出反应。

  1. 我们可以根据数据中变量之间的关系对数据进行聚类,从而得出这个结构。

  2. 预测结果没有反馈。

问题类别:

< >强集群:< / >强是对一组对象进行分组的任务,以便同一组(称为群集)中的对象彼此之间比其他组(群集)中的对象更相似(在某种意义上)。

例子:

收集100万个不同的基因,找到一种方法,自动将这些基因分组,这些基因在某种程度上是相似的,或因不同的变量(如寿命、位置、角色等)而相关

无监督学习

这里列出了常用的用例。

数据挖掘中分类和聚类的区别?< / >

引用:

supervised ed_learning

unsupervisory ed_learning

machine-learning from coursera

todsdatascience

< p >监督学习: 假设一个孩子去了幼儿园。这里老师给他看了3个玩具——房子,球和汽车。现在老师给了他10个玩具。 他会根据他以前的经验把它们分为房子,球和汽车3个盒子。 因此,孩子首先是由老师监督,因为他们在几组比赛中答对了答案。然后用不知名的玩具对他进行测试。 aa < / p > < p >无监督学习: 还是幼儿园的例子。给一个孩子10个玩具。他被告知要分割类似的部分。 因此,根据形状、大小、颜色、功能等特征,他会尝试将A、B、C分成3组,并将它们分组。 bb < / p >

监理这个词的意思是你给机器提供监督/指令,帮助它找到答案。一旦它学会指令,就可以很容易地预测新的情况。

无监督意味着没有监督或指示如何找到答案/标签,机器将利用它的智能在我们的数据中找到一些模式。在这里,它不会进行预测,它只会尝试寻找具有相似数据的集群。

监督式学习

enter image description here

无监督学习

enter image description here

例子:

监督式学习:

  • 一袋苹果
  • 一个橙色的袋子

    =>建立模型

  • 一个混合了苹果和橘子的袋子。

    =>请分类

无监督学习:

  • 一个混合了苹果和橘子的袋子。

    =>建立模型

  • 又是一个好坏参半的结果

    =>请分类

简单地说…:)这是我的理解,请随意纠正。 监督式学习是,我们知道我们在提供的数据的基础上预测什么。数据集中有一列需要预测。 无监督学习是,我们尝试从提供的数据集中提取意义。我们不清楚要预测什么。问题是我们为什么要这样做?答案是-无监督学习的结果是组/聚类(相似的数据在一起)。因此,如果我们收到任何新数据,我们就会将其与已识别的集群/组关联起来,并了解其特征。

我希望它能帮助你。

监督式学习

监督学习是我们知道原始输入的输出,即数据被标记,以便在机器学习模型的训练期间,它将了解它需要在给定的输出中检测什么,并且它将指导系统在训练期间检测预先标记的对象,在此基础上,它将检测我们在训练中提供的类似对象。

在这里,算法将知道数据的结构和模式。监督学习用于分类

例如,我们可以有一个不同的对象,其形状是正方形,圆形,三角形,我们的任务是排列相同类型的形状 标记的数据集已经标记了所有的形状,我们将在该数据集上训练机器学习模型,在训练数据集的基础上,它将开始检测形状。< / p >

联合国监管下学习

无监督学习是一种最终结果未知的无指导学习,它将对数据集进行聚类,并基于对象的相似属性将对象划分在不同的簇上并检测对象。

算法将在原始数据中搜索不同的模式,并在此基础上对数据进行聚类。无监督学习用于聚类。

例如,我们可以有多种形状的不同物体,正方形,圆形,三角形,所以它会根据对象属性进行分组,如果一个物体有四个边,它会认为它是正方形,如果它有三个边,三角形,如果没有边比圆形,这里的数据没有标记,它会学习自己检测各种形状

已经有很多答案可以详细解释这些差异。我在codeacademy上找到了这些动图,它们经常帮助我有效地解释差异。

监督式学习

enter image description here 注意,训练图像在这里有标签,并且模型正在学习图像的名称

无监督学习

enter image description here 注意,这里所做的只是分组(聚类),模型不知道任何图像

机器学习是一个让机器模仿人类行为的领域。

你训练机器就像训练婴儿一样。人类学习、识别特征、识别模式并训练自己的方式,就像你通过输入各种特征的数据来训练机器一样。机器算法识别数据中的模式,并将其分类到特定的类别。

机器学习大致分为两类,有监督学习和无监督学习。

监督学习是一个概念,你有相应的目标值(输出)的输入向量/数据。另一方面,无监督学习的概念是只有输入向量/数据,没有任何相应的目标值。

监督学习的一个例子是手写数字识别,其中有对应数字[0-9]的数字图像,而非监督学习的一个例子是根据购买行为对客户进行分组。