数据挖掘中分类和聚类的区别?

有人能解释一下数据挖掘中分类和聚类的区别吗?

如果可以,请给出两者的例子以理解主旨。

233153 次浏览

通常,在分类中,您有一组预定义的类,并希望知道新对象属于哪个类。

聚类尝试将一组对象分组,并发现对象之间是否存在一些关系。

在机器学习的上下文中,分类是< em >监督学习< / em >,聚类是< em > < / em >无监督学习

也可以在维基百科上查看< em > < / em >分类集群< em > < / em >

我是一个数据挖掘的新手,但正如我的课本所说,分类应该是监督学习,而聚类应该是非监督学习。有监督学习和无监督学习之间的区别可以找到在这里

< p > +分类: 给你一些新的数据,你必须为它们设置新的标签

例如,一家公司希望对其潜在客户进行分类。当一个新客户来的时候,他们必须确定这个客户是否会购买他们的产品。

< p > +集群: 你有一组历史交易记录,记录了谁买了什么

通过使用聚类技术,您可以区分客户的细分。

< p >分类 —预测类别标签 -根据训练集和类标签属性中的值(类标签)对数据进行分类(构造模型) —新数据分类

时使用模型

Cluster:数据对象的集合 —同一集群内彼此相似 —不同于其他集群的对象

我认为分类是将数据集中的记录分类为预定义的类,甚至是在运行中定义类。我认为这是任何有价值的数据挖掘的先决条件,我喜欢把它看作无监督学习,即在挖掘数据和分类作为一个很好的起点时,一个人不知道他/她在寻找什么

另一端的聚类属于监督学习,即一个人知道要寻找什么参数,它们之间的相关性以及关键水平。我认为这需要对统计学和数学有所了解

如果你试图将大量的文件归档到你的书架上(根据日期或文件的其他规格),你是在分类。

如果要从这组工作表创建集群,则意味着工作表之间有一些类似的东西。

聚类的目的是在数据中找到组。“集群”是一个直观的概念,确实如此 没有严格的数学定义。一个集群的成员应该是 彼此相似,而与其他集群的成员不同。一个集群

.算法对一个未标记的数据集Z进行操作,并在其上生成一个分区

类和类标签, 类包含相似的对象,而来自不同类的对象 是不同的。有些类具有明确的含义,在最简单的情况下 相互排斥。例如,在签名验证中,签名为任意一种 真的或伪造的。真正的阶级是两者之一,不管我们可能不是 能够通过观察特定的签名来正确地猜测。

如果你向任何数据挖掘或机器学习人员问过这个问题,他们会使用术语监督式学习无监督学习来向你解释聚类和分类之间的区别。首先让我解释一下有监督和无监督这两个关键词。

< >强监督学习: 假设你有一个篮子,里面装满了一些新鲜的水果,你的任务是把相同类型的水果摆放在一个地方。假设这些水果是苹果、香蕉、樱桃和葡萄。 从你之前的工作中,你已经知道了每种水果的形状,所以很容易在一个地方摆放相同类型的水果。 在这里,您以前的工作被称为数据挖掘中的训练数据。 所以你已经从训练过的数据中学到了东西,这是因为你有一个响应变量,它告诉你,如果一些水果有这样那样的特征,它就是葡萄,就像每个水果都是这样的

这种类型的数据你将从训练数据中得到。 这种类型的学习被称为监督学习。 这种类型的解决问题属于分类。 所以你已经学会了这些东西,所以你可以自信地做你的工作

< >强无监督: 假设你有一个篮子,里面装满了一些新鲜的水果,你的任务是把相同类型的水果摆放在一个地方

这一次你对这些水果一无所知,你是第一次看到这些水果,所以你会如何安排相同类型的水果。

你首先要做的是拿起这个水果然后选择这个水果的任何物理特性。假设你取了颜色。

然后你会根据颜色来排列它们,然后这些组会是这样的。 红色组:苹果&樱桃的水果。 绿色组:香蕉;葡萄。 那么现在你将用另一个物理字符作为大小,所以现在群是这样的。 颜色红,尺寸大:苹果。 樱桃水果。 颜色绿色,尺寸大:香蕉。 绿色,体积小:葡萄。

这里你没有学到任何东西,意味着没有训练数据和响应变量。 这种类型的学习被称为无监督学习。 聚类属于无监督学习

分类

基于示例中的学习,将预定义的类赋值给新的观察结果

这是机器学习的关键任务之一。

聚类(或聚类分析)

尽管被普遍认为是“无监督分类”,但它完全不同。

与许多机器学习者教你的不同,它不是将“类”分配给对象,而是没有预先定义它们。这是做了太多分类的人的有限观点;如果你有一个锤子(分类器),对你来说一切都像钉子(分类问题)的一个典型例子。但这也是为什么从事分类的人没有掌握聚类的诀窍。

相反,可以将其视为结构发现。聚类的任务是在你以前不知道的数据中找到结构(例如组)。群集已经成功如果你学到了一些新的东西。如果你只知道你已经知道的结构,它就失败了。

聚类分析是数据挖掘的关键任务(也是机器学习中的丑小鸭,所以不要相信机器学习者对聚类的否定)。

“无监督学习”有点矛盾

这已经在文献中反复出现,但无监督学习是bllsht。它并不存在,但它就像“军事情报”一样自相矛盾。

算法要么从例子中学习(那么它就是“监督学习”),要么不学习。如果所有的聚类方法都是“学习”,那么计算一个数据集的最小值、最大值和平均值也是“无监督学习”。然后任何计算“学习”它的输出。因此“无监督学习”这个术语完全没有意义,它意味着一切和什么都没有。

然而,一些“无监督学习”算法确实属于优化类别。例如k-means 是最小二乘优化。这样的方法都是关于统计的,所以我认为我们不需要给它们贴上“无监督学习”的标签,而应该继续称之为“优化问题”。它更精确,也更有意义。 有很多聚类算法不涉及优化,也不太适合机器学习范式。所以不要再把他们挤在“无监督学习”的保护伞下了

有一些与集群相关的“学习”,但学习的不是程序。用户应该学习关于他的数据集的新东西。

我相信你们中很多人都听说过机器学习。很多人可能知道这是什么。你们中的一些人可能也接触过机器学习算法。 你知道这是怎么回事了吗?不是很多人都熟悉5年后绝对必不可少的技术。Siri是机器学习。亚马逊的Alexa就是机器学习。广告和购物项目推荐系统是机器学习。 让我们用一个2岁男孩的例子来理解机器学习。为了好玩,我们就叫他凯洛·伦吧

Source: blog.printkeg.com

让我们假设凯洛·伦看到了一头大象。他的大脑会告诉他什么?(记住,即使他是维德的继任者,他也只有最低限度的思考能力)。他的大脑会告诉他,他看到了一个巨大的移动生物,颜色是灰色的。接着他看到一只猫,他的大脑告诉他那是一只会动的金色小动物。最后,他看到了一把光剑,他的大脑告诉他,这是一个无生命的物体,他可以玩!

此时他的大脑知道,军刀不同于大象和猫,因为军刀是用来玩的,不会自己移动。即使凯洛不知道移动是什么意思,他的大脑也能想出这么多。这个简单的现象叫做聚类。

来源:jeffcarpenterblog.tumblr.com

机器学习只不过是这个过程的数学版本。 很多研究统计学的人意识到,他们可以用大脑工作的方式来计算一些方程。 < p> .大脑可以把相似的物体聚在一起,大脑可以从错误中学习,大脑可以学会识别事物 所有这些都可以用统计数据来表示,基于计算机模拟这一过程的方法被称为机器学习。为什么我们需要基于计算机的模拟?因为计算机比人脑更快地完成繁重的数学运算。 我很想进入机器学习的数学/统计部分,但你不想在没有明确一些概念的情况下跳过它 让我们回到凯洛·伦身上。假设凯洛拿起军刀开始玩。他不小心撞到了一个突击队员,突击队员受伤了。他不明白发生了什么,继续玩下去。接着他打了一只猫,猫受伤了。这一次凯洛确定自己做了坏事,所以尽量小心一些。但鉴于他糟糕的佩刀技术,他击中了大象,他绝对确定自己有麻烦了。 从那以后,他变得非常小心,只故意打他的父亲,就像我们在《原力觉醒》中看到的那样!!< / p >

Source: joyreactor.com .

从错误中学习的整个过程可以用方程来模拟,做错事的感觉用错误或代价来表示。这种识别不该用军刀做什么的过程叫做分类。 聚类和分类是机器学习的绝对基础。让我们看看它们之间的区别。

凯洛区分了动物和光剑,因为他的大脑决定光剑不能自己移动,因此,不同。这一决定完全基于现有的实物(数据),没有提供任何外部帮助或建议。 与此相反,凯洛通过首先观察撞击物体的效果来区分小心使用光剑的重要性。这个决定并不完全基于军刀,而是基于它对不同物体的作用。总之,这里有一些帮助

Source: pintrest .

由于学习上的这种差异,聚类被称为无监督学习方法,分类被称为监督学习方法。 它们在机器学习世界中非常不同,通常由当前数据的类型决定。获得标记数据(或帮助我们学习的东西,如凯洛案例中的冲锋队、大象和猫)通常不容易,当需要区分的数据很大时,就会变得非常复杂。另一方面,没有标签的学习也有它自己的缺点,比如不知道标签标题是什么。 如果凯洛在没有任何例子或帮助的情况下学会小心使用军刀,他不知道它会做什么。他只会知道这是不应该做的。这是一个蹩脚的类比,但你明白我的意思!< / p >

我们刚刚开始学习机器学习。分类本身可以是连续数的分类,也可以是标签的分类。例如,如果Kylo必须对每个冲锋队员的身高进行分类,就会有很多答案,因为高度可以是5.0、5.01、5.011等等。但是像光剑的类型(红、蓝、绿)这样的简单分类只能给出非常有限的答案。事实上,它们可以用简单的数字表示。红色可以是0,蓝色可以是1,绿色可以是2。

如果你知道基本的数学知识,你就知道0、1、2和5.1、5.01、5.011是不同的,分别被称为离散数和连续数。离散数的分类称为逻辑回归,连续数的分类称为回归。 逻辑回归也被称为分类分类,所以当你在其他地方读到这个术语时不要混淆

这是关于机器学习的一个非常基础的介绍。我将在下一篇文章中详细讨论统计方面的问题。如果我需要更正,请告诉我:)

第二部分张贴在这里enter image description here < / p >

请阅读以下信息:

enter image description here

enter image description here enter image description here < / p >

在数据挖掘中有两个定义:“有监督的”和“无监督的”。 当有人告诉计算机、算法、代码……这个东西像苹果,那个东西像橘子,这是监督学习,使用监督学习(像数据集中每个样本的标签)对数据进行分类,你会得到分类。但另一方面,如果你让计算机找出什么是什么,区分给定数据集的特征,实际上是无监督学习,对数据集进行分类,这就叫做聚类。在这种情况下,提供给算法的数据没有标签,算法应该找出不同的类

聚类是一种对对象进行分组的方法,通过这种方式,具有相似特征的对象聚集在一起,而具有不同特征的对象分开。它是机器学习和数据挖掘中常用的统计数据分析技术。

分类是在训练数据集的基础上识别、区分和理解对象的分类过程。分类是一种有监督的学习技术,其中训练集和正确定义的观察是可用的。

通过聚类,您可以根据所需的属性(如提取的聚类的数量、形状和其他属性)对数据进行分组。而在分类中,组的数量和形状是固定的。 大多数聚类算法都给出了聚类个数作为参数。但是,有一些方法可以找出合适的簇数

摘自《驯象人在行动》一书,我认为它很好地解释了两者的区别:

分类算法与聚类算法(如k-means算法)相关,但仍有很大不同。

分类算法是监督学习的一种形式,与无监督学习相反,无监督学习发生在聚类算法中。

监督学习算法是一种给出包含目标变量期望值的例子。无监督算法不会得到想要的答案,而是必须自己找到一些合理的答案。

机器学习或AI在很大程度上是通过它执行/完成的任务来感知的。

在我看来,通过在任务的概念上思考聚类和分类,可以真正帮助理解两者之间的区别。

聚类是对事物进行分组,分类是给事物贴上标签。

让我们假设你在一个派对大厅里,所有的男人都穿着西装,女人都穿着长袍。

现在,你问你的朋友几个问题:

你好,你能帮我分组吗?

你的朋友可能给出的答案有:

1:他可以根据性别分组,男性或女性

2:他可以根据人的衣服来分组,一个穿西装,一个穿长袍

他可以根据头发的颜色把人分类

他可以把人按年龄分组,等等。

你的朋友有很多方法可以完成这个任务。

当然,你可以通过提供额外的信息来影响他的决策过程,比如:

你能帮我把这些人按性别(或年龄,或头发颜色或衣服等)分组吗?

Q2:

在第二季度之前,你需要做一些准备工作。

你必须教导或通知你的朋友,这样他才能做出明智的决定。假设你对你的朋友说:

  • 留长头发的人是女人。

  • 留短发的人是男人。

Q2。现在,你指着一个长头发的人问你的朋友:这是一个男人还是一个女人?

你能想到的唯一答案是:女人。

当然,聚会上也可以有长发的男人和短发的女人。但是,根据你提供给你朋友的知识,答案是正确的。你可以通过教你的朋友如何区分这两者来进一步改进这个过程。

在上面的例子中,

Q1表示集群完成的任务。

在聚类中,你向算法(你的朋友)提供数据(人),并要求它对数据进行分组。

现在,由算法来决定什么是分组的最佳方式?(性别、肤色或年龄组别)。

同样,你可以通过提供额外的输入来影响算法的决策。

Q2表示分类完成的任务。

在那里,你给你的算法(你的朋友)一些数据(人),称为训练数据,并让他学习哪些数据对应哪个标签(男性或女性)。然后,您将算法指向某些数据,称为测试数据,并要求它确定它是男性还是女性。你的教学越好,预测就越准。

在Q2或Classification中的Pre-work只是训练你的模型,这样它就可以学习如何区分。在聚类或Q1中,这个前期工作是分组的一部分。

希望这能帮助到一些人。

谢谢

分类一行:

将数据分类为预定义的类别

用于集群的一行代码:

将数据分组到一组类别中

关键的区别:

分类是获取数据并将其放入预定义的类别中,而在聚类中,您想将数据分组到的类别集是事先不知道的。

结论:

  • Classification将类别分配给1个新项目,基于already 有标签的项目,而集群需要一堆无标签的项目和 将它们分为
  • 在“分类”中,要划分的类别\组是已知的 在聚类之前,要划分的类别\组
  • 在分类中,有两个阶段-训练阶段,然后是 而在聚类中,只有1个阶段-的划分 .簇中的训练数据 分类是监督学习,聚类是监督学习 李无监督学习< / >

我写了一篇关于同一主题的长文章,你可以在这里找到:

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/

enter image description here

分类-一个数据集可以有不同的组/类。红色,绿色和黑色。分类将试图找到将它们划分为不同类别的规则。

卡斯特-如果一个数据集没有任何类,你想把它们放在某个类/分组中,你做集群。上面紫色的圆圈。

如果分类规则不好,你会在测试中出现错误的分类,或者你的规则不够正确 如果聚类不好,你会有很多异常值。不能落在任何集群中的数据点

首先,像这里的许多回答一样:分类是有监督的学习,聚类是无监督的。这意味着:

  1. 分类需要有标签的数据,这样分类器就可以在这些数据上进行训练,然后开始根据他所知道的对新的未见过的数据进行分类。像聚类这样的无监督学习并不使用标记数据,它实际上所做的是发现数据中的内在结构,比如组。

  2. 这两种技术之间的另一个区别(与前一种技术相关)是,分类是一种离散回归问题,其中输出是分类因变量。而聚类的输出产生一组子集,称为组。评估这两个模型的方法也不同,原因是一样的:在分类中,你经常需要检查精度和召回率,比如过拟合和欠拟合等。这些东西会告诉你这个模型有多好。但是在聚类中,你通常需要专家的眼光来解释你所发现的东西,因为你不知道你有什么类型的结构(组或聚类的类型)。这就是为什么聚类属于探索性数据分析。

  3. 最后,我想说应用程序是两者之间的主要区别。分类,顾名思义,是用来区分属于一个类别或另一个类别的实例,例如男人或女人,猫或狗,等等。聚类常用于医学疾病诊断、模式发现等方面。

分类和聚类之间的关键区别是: 分类是借助类标签对数据进行分类的过程。另一方面,聚类类似于分类,但没有预定义的类标签。 分类与监督学习相适应。与此相反,聚类也被称为无监督学习。 分类方法提供训练样本,聚类方法不提供训练数据

希望这对你有所帮助!

分类:预测离散输出中的结果=>将输入变量映射到离散类别

enter image description here

常用用例:

  1. 电子邮件分类:垃圾邮件或非垃圾邮件

  2. 制裁贷款给客户:是的,如果他有能力支付制裁贷款金额的EMI。不行就不行

  3. 癌症肿瘤细胞鉴定:是关键还是非关键?

  4. 推文的情感分析:推文是积极的、消极的还是中性的

  5. 新闻分类:将新闻分类为预定义的类-政治,体育,健康等

聚类:是对一组对象进行分组的任务,以便同一组(称为群集)中的对象彼此之间比其他组(群集)中的对象更相似(在某种意义上)

enter image description here

enter image description here

常用用例:

  1. 营销:发现客户细分市场的营销目的

  2. 生物学:植物和动物的不同种类的分类

  3. 图书馆:根据主题和信息对不同的书籍进行聚类

  4. 保险:了解客户、他们的政策并识别欺诈行为

  5. 城市规划:将房屋分组,并根据其地理位置和其他因素研究其价值。

  6. 地震研究:确定危险区

  7. 推荐系统:

引用:

geeksforgeeks

dataaspirant

3leafnodes