有人能解释一下数据挖掘中分类和聚类的区别吗?
如果可以,请给出两者的例子以理解主旨。
通常,在分类中,您有一组预定义的类,并希望知道新对象属于哪个类。
聚类尝试将一组对象分组,并发现对象之间是否存在一些关系。
在机器学习的上下文中,分类是< em >监督学习< / em >,聚类是< em > < / em >无监督学习。
也可以在维基百科上查看< em > < / em >分类和集群< em > < / em >。
我是一个数据挖掘的新手,但正如我的课本所说,分类应该是监督学习,而聚类应该是非监督学习。有监督学习和无监督学习之间的区别可以找到在这里。
例如,一家公司希望对其潜在客户进行分类。当一个新客户来的时候,他们必须确定这个客户是否会购买他们的产品。
通过使用聚类技术,您可以区分客户的细分。
Cluster:数据对象的集合 —同一集群内彼此相似 —不同于其他集群的对象
我认为分类是将数据集中的记录分类为预定义的类,甚至是在运行中定义类。我认为这是任何有价值的数据挖掘的先决条件,我喜欢把它看作无监督学习,即在挖掘数据和分类作为一个很好的起点时,一个人不知道他/她在寻找什么
另一端的聚类属于监督学习,即一个人知道要寻找什么参数,它们之间的相关性以及关键水平。我认为这需要对统计学和数学有所了解
如果你试图将大量的文件归档到你的书架上(根据日期或文件的其他规格),你是在分类。
如果要从这组工作表创建集群,则意味着工作表之间有一些类似的东西。
类和类标签, 类包含相似的对象,而来自不同类的对象 是不同的。有些类具有明确的含义,在最简单的情况下 相互排斥。例如,在签名验证中,签名为任意一种 真的或伪造的。真正的阶级是两者之一,不管我们可能不是 能够通过观察特定的签名来正确地猜测。
如果你向任何数据挖掘或机器学习人员问过这个问题,他们会使用术语监督式学习和无监督学习来向你解释聚类和分类之间的区别。首先让我解释一下有监督和无监督这两个关键词。
< >强监督学习: 假设你有一个篮子,里面装满了一些新鲜的水果,你的任务是把相同类型的水果摆放在一个地方。假设这些水果是苹果、香蕉、樱桃和葡萄。 从你之前的工作中,你已经知道了每种水果的形状,所以很容易在一个地方摆放相同类型的水果。 在这里,您以前的工作被称为数据挖掘中的训练数据。 所以你已经从训练过的数据中学到了东西,这是因为你有一个响应变量,它告诉你,如果一些水果有这样那样的特征,它就是葡萄,就像每个水果都是这样的
这种类型的数据你将从训练数据中得到。 这种类型的学习被称为监督学习。 这种类型的解决问题属于分类。 所以你已经学会了这些东西,所以你可以自信地做你的工作
< >强无监督: 假设你有一个篮子,里面装满了一些新鲜的水果,你的任务是把相同类型的水果摆放在一个地方
这一次你对这些水果一无所知,你是第一次看到这些水果,所以你会如何安排相同类型的水果。
你首先要做的是拿起这个水果然后选择这个水果的任何物理特性。假设你取了颜色。
这里你没有学到任何东西,意味着没有训练数据和响应变量。 这种类型的学习被称为无监督学习。 聚类属于无监督学习
基于示例中的学习,将预定义的类赋值给新的观察结果。
这是机器学习的关键任务之一。
尽管被普遍认为是“无监督分类”,但它完全不同。
与许多机器学习者教你的不同,它不是将“类”分配给对象,而是没有预先定义它们。这是做了太多分类的人的有限观点;如果你有一个锤子(分类器),对你来说一切都像钉子(分类问题)的一个典型例子。但这也是为什么从事分类的人没有掌握聚类的诀窍。
相反,可以将其视为结构发现。聚类的任务是在你以前不知道的数据中找到结构(例如组)。群集已经成功如果你学到了一些新的东西。如果你只知道你已经知道的结构,它就失败了。
聚类分析是数据挖掘的关键任务(也是机器学习中的丑小鸭,所以不要相信机器学习者对聚类的否定)。
这已经在文献中反复出现,但无监督学习是bllsht。它并不存在,但它就像“军事情报”一样自相矛盾。
算法要么从例子中学习(那么它就是“监督学习”),要么不学习。如果所有的聚类方法都是“学习”,那么计算一个数据集的最小值、最大值和平均值也是“无监督学习”。然后任何计算“学习”它的输出。因此“无监督学习”这个术语完全没有意义,它意味着一切和什么都没有。
有一些与集群相关的“学习”,但学习的不是程序。用户应该学习关于他的数据集的新东西。
让我们假设凯洛·伦看到了一头大象。他的大脑会告诉他什么?(记住,即使他是维德的继任者,他也只有最低限度的思考能力)。他的大脑会告诉他,他看到了一个巨大的移动生物,颜色是灰色的。接着他看到一只猫,他的大脑告诉他那是一只会动的金色小动物。最后,他看到了一把光剑,他的大脑告诉他,这是一个无生命的物体,他可以玩!
此时他的大脑知道,军刀不同于大象和猫,因为军刀是用来玩的,不会自己移动。即使凯洛不知道移动是什么意思,他的大脑也能想出这么多。这个简单的现象叫做聚类。
.
我们刚刚开始学习机器学习。分类本身可以是连续数的分类,也可以是标签的分类。例如,如果Kylo必须对每个冲锋队员的身高进行分类,就会有很多答案,因为高度可以是5.0、5.01、5.011等等。但是像光剑的类型(红、蓝、绿)这样的简单分类只能给出非常有限的答案。事实上,它们可以用简单的数字表示。红色可以是0,蓝色可以是1,绿色可以是2。
这是关于机器学习的一个非常基础的介绍。我将在下一篇文章中详细讨论统计方面的问题。如果我需要更正,请告诉我:)
第二部分张贴在这里。 < / p >
请阅读以下信息:
< / p >
聚类是一种对对象进行分组的方法,通过这种方式,具有相似特征的对象聚集在一起,而具有不同特征的对象分开。它是机器学习和数据挖掘中常用的统计数据分析技术。
分类是在训练数据集的基础上识别、区分和理解对象的分类过程。分类是一种有监督的学习技术,其中训练集和正确定义的观察是可用的。
摘自《驯象人在行动》一书,我认为它很好地解释了两者的区别:
分类算法与聚类算法(如k-means算法)相关,但仍有很大不同。 分类算法是监督学习的一种形式,与无监督学习相反,无监督学习发生在聚类算法中。 监督学习算法是一种给出包含目标变量期望值的例子。无监督算法不会得到想要的答案,而是必须自己找到一些合理的答案。
分类算法与聚类算法(如k-means算法)相关,但仍有很大不同。
分类算法是监督学习的一种形式,与无监督学习相反,无监督学习发生在聚类算法中。
监督学习算法是一种给出包含目标变量期望值的例子。无监督算法不会得到想要的答案,而是必须自己找到一些合理的答案。
机器学习或AI在很大程度上是通过它执行/完成的任务来感知的。
在我看来,通过在任务的概念上思考聚类和分类,可以真正帮助理解两者之间的区别。
聚类是对事物进行分组,分类是给事物贴上标签。
让我们假设你在一个派对大厅里,所有的男人都穿着西装,女人都穿着长袍。
现在,你问你的朋友几个问题:
你好,你能帮我分组吗?
你的朋友可能给出的答案有:
1:他可以根据性别分组,男性或女性
2:他可以根据人的衣服来分组,一个穿西装,一个穿长袍
他可以根据头发的颜色把人分类
他可以把人按年龄分组,等等。
你的朋友有很多方法可以完成这个任务。
当然,你可以通过提供额外的信息来影响他的决策过程,比如:
你能帮我把这些人按性别(或年龄,或头发颜色或衣服等)分组吗?
Q2:
在第二季度之前,你需要做一些准备工作。
你必须教导或通知你的朋友,这样他才能做出明智的决定。假设你对你的朋友说:
留长头发的人是女人。
留短发的人是男人。
Q2。现在,你指着一个长头发的人问你的朋友:这是一个男人还是一个女人?
你能想到的唯一答案是:女人。
当然,聚会上也可以有长发的男人和短发的女人。但是,根据你提供给你朋友的知识,答案是正确的。你可以通过教你的朋友如何区分这两者来进一步改进这个过程。
在上面的例子中,
Q1表示集群完成的任务。
在聚类中,你向算法(你的朋友)提供数据(人),并要求它对数据进行分组。
现在,由算法来决定什么是分组的最佳方式?(性别、肤色或年龄组别)。
同样,你可以通过提供额外的输入来影响算法的决策。
Q2表示分类完成的任务。
在那里,你给你的算法(你的朋友)一些数据(人),称为训练数据,并让他学习哪些数据对应哪个标签(男性或女性)。然后,您将算法指向某些数据,称为测试数据,并要求它确定它是男性还是女性。你的教学越好,预测就越准。
在Q2或Classification中的Pre-work只是训练你的模型,这样它就可以学习如何区分。在聚类或Q1中,这个前期工作是分组的一部分。
希望这能帮助到一些人。
谢谢
分类一行:
将数据分类为预定义的类别
用于集群的一行代码:
将数据分组到一组类别中
关键的区别:
分类是获取数据并将其放入预定义的类别中,而在聚类中,您想将数据分组到的类别集是事先不知道的。
结论:
我写了一篇关于同一主题的长文章,你可以在这里找到:
https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/
分类-一个数据集可以有不同的组/类。红色,绿色和黑色。分类将试图找到将它们划分为不同类别的规则。
卡斯特-如果一个数据集没有任何类,你想把它们放在某个类/分组中,你做集群。上面紫色的圆圈。
如果分类规则不好,你会在测试中出现错误的分类,或者你的规则不够正确 如果聚类不好,你会有很多异常值。不能落在任何集群中的数据点
首先,像这里的许多回答一样:分类是有监督的学习,聚类是无监督的。这意味着:
分类需要有标签的数据,这样分类器就可以在这些数据上进行训练,然后开始根据他所知道的对新的未见过的数据进行分类。像聚类这样的无监督学习并不使用标记数据,它实际上所做的是发现数据中的内在结构,比如组。
这两种技术之间的另一个区别(与前一种技术相关)是,分类是一种离散回归问题,其中输出是分类因变量。而聚类的输出产生一组子集,称为组。评估这两个模型的方法也不同,原因是一样的:在分类中,你经常需要检查精度和召回率,比如过拟合和欠拟合等。这些东西会告诉你这个模型有多好。但是在聚类中,你通常需要专家的眼光来解释你所发现的东西,因为你不知道你有什么类型的结构(组或聚类的类型)。这就是为什么聚类属于探索性数据分析。
最后,我想说应用程序是两者之间的主要区别。分类,顾名思义,是用来区分属于一个类别或另一个类别的实例,例如男人或女人,猫或狗,等等。聚类常用于医学疾病诊断、模式发现等方面。
希望这对你有所帮助!
分类:预测离散输出中的结果=>将输入变量映射到离散类别
常用用例:
电子邮件分类:垃圾邮件或非垃圾邮件
制裁贷款给客户:是的,如果他有能力支付制裁贷款金额的EMI。不行就不行
癌症肿瘤细胞鉴定:是关键还是非关键?
推文的情感分析:推文是积极的、消极的还是中性的
新闻分类:将新闻分类为预定义的类-政治,体育,健康等
聚类:是对一组对象进行分组的任务,以便同一组(称为群集)中的对象彼此之间比其他组(群集)中的对象更相似(在某种意义上)
营销:发现客户细分市场的营销目的
生物学:植物和动物的不同种类的分类
图书馆:根据主题和信息对不同的书籍进行聚类
保险:了解客户、他们的政策并识别欺诈行为
城市规划:将房屋分组,并根据其地理位置和其他因素研究其价值。
地震研究:确定危险区
推荐系统:
引用:
geeksforgeeks
dataaspirant
3leafnodes