数据挖掘中分类和聚类的区别?
有人可以说数据挖掘中的分类和聚类有什么区别吗?
如果可以的话,请举两个例子来理解主要思想。
一般来说,在分类中你有一组预定义的类,并且想知道一个新的对象属于哪一个类。
聚类尝试将一组对象分组,并查找对象之间是否存在某种关系。
在机器学习的背景下,分类是监督学习 ,聚类是非监督学习 。
另请参阅维基百科上的分类和聚类 。
如果您向任何数据挖掘或机器学习人员提出这个问题,他们将使用术语监督学习和无监督学习来解释聚类和分类之间的区别。 所以,让我先解释一下监督和无监督的关键词。
监督学习:假设你有一个篮子,里面装满了新鲜水果,你的任务是在同一个地方安排同样types的水果。 假设水果是苹果,香蕉,樱桃和葡萄。 所以你从以前的作品中已经知道,每一个水果的形状都很容易在同一个地方安排同样types的水果。 在这里你以前的工作被称为数据挖掘中的训练数据。 所以你已经从你的训练数据中学习了东西,这是因为你有一个响应variables,它告诉你如果一些水果具有某种特征,就像每一个水果一样。
这种types的数据将从训练数据中获得。 这种学习被称为监督学习。 这种types的解决问题属于分类。 所以你已经学会了东西,所以你可以自信地做你的工作。
无人监督:假设你有一个篮子,它充满了一些新鲜的水果,你的任务是在同一个地方安排同样types的水果。
这次你不知道有什么关于水果的事情,你第一次看到这些水果,你将如何安排相同types的水果。
你要做的第一件事就是拿起水果,你会select特定水果的任何物理特性。 假设你采取了颜色。
那么你会根据颜色来安排他们,那么这些团体会是这样的。 红颜色组:苹果和樱桃水果。 绿色颜色组:香蕉和葡萄。 所以现在你将会把另一个物理angular色看成是一个大小,所以现在这个群体会是这样的。 红色和大尺寸:苹果。 红色和小尺寸:樱桃果实。 绿颜色和大小:香蕉。 绿色和小尺寸 :葡萄。 工作做得很好结局。
在这里你没有学过任何东西,意味着没有火车数据和没有响应variables。 这种types的学习是已知的无监督学习。 聚类是在无监督的学习。
请阅读以下信息:
+分类:给你一些新的数据,你必须为他们设置新的标签。
例如,一家公司想分类他们的潜在客户。 当新客户来到时,他们必须确定这是否是要购买其产品的客户。
+集群:你有一个历史交易logging谁买了什么。
通过使用群集技术,您可以告诉客户的细分。
我相信你们中许多人听说过机器学习。 十几个人甚至可能知道它是什么。 而且你们中的一些人也可能使用了机器学习algorithm。 你知道这是怎么回事? 没有很多人熟悉5年后绝对必要的技术。 Siri是机器学习。 亚马逊的Alexa是机器学习。 广告和购物项目推荐系统是机器学习。 让我们试着用一个2岁男孩的简单比喻来理解机器学习。 为了好玩,我们叫他Kylo Ren吧
我们假设Kylo Ren看见一头大象。 他的大脑会告诉他什么?(记住他有最小的思维能力,即使他是Vader的inheritance人)。 他的大脑会告诉他,他看到一个灰色的大动物。 他接下来看到一只猫,他的大脑告诉他,这是一个金色的小动物。 最后,他接下来看到一把轻剑,他的大脑告诉他这是一个他可以玩的无生命的物体!
此时他的大脑知道剑与大象和猫不同,因为剑是可以玩的东西,不会自行移动。 即使Kylo不知道什么是可移动的手段,他的大脑也可以计算出来。 这个简单的现象被称为聚类。
机器学习不过是这个过程的math版本。 很多研究统计学的人都认识到,他们可以使一些方程式与大脑工作一样工作。 大脑可以聚集类似的物体,大脑可以从错误中学习,大脑可以学习识别事物。
所有这些都可以用统计来表示,而这个过程的基于计算机的模拟被称为机器学习。 为什么我们需要基于计算机的模拟? 因为电脑可以比人脑更快地做math运算。 我很想进入机器学习的math/统计部分,但是如果不先清除一些概念,你就不想跳进这个部分。
让我们回到Kylo Ren吧。 比方说,Kylo拿起军刀开始玩。 他不小心撞击了一名冲锋队员,冲锋队受伤。 他不明白发生了什么,继续玩。 接下来,他打了一只猫,猫受伤了。 这一次Kylo确信他做了一些不好的事情,并试图稍微小心。 但是由于他的剑术能力差,他撞上了大象,并且绝对相信他有麻烦了。 此后,他变得非常小心,只有当我们在武力觉醒中看到他的目的,才打击他的父亲!
从错误中学习的整个过程可以用方程来模拟,错误或成本代表做错的感觉。 识别什么不用一个军刀的这个过程叫做分类。 聚类和分类是机器学习的绝对基础。 我们来看看它们之间的区别。
Kylo区分动物和轻剑,因为他的大脑决定轻剑不能自行移动,因此,是不同的。 该决定完全基于目标(数据)的目标,没有提供任何外部帮助或build议。 与此相反,Kylo通过首先观察撞击物体的能力,区分了使用轻型军刀时要小心的重要性。 这个决定并不完全是基于马刀,而是基于它对不同的对象可以做什么。 总之,这里有一些帮助。
由于这种学习的不同,聚类被称为无监督学习方法,分类被称为监督学习方法。 它们在机器学习世界中是非常不同的,并且通常由存在的数据支配。 获取有标签的数据(或者帮助我们学习的东西,例如Kylo案例中的突击队员,大象和猫)通常并不容易,而当要区分的数据很大时,这些数据变得非常复杂。 另一方面,没有标签的学习可能会有自己的缺点,比如不知道标签是什么。 如果Kylo没有任何事例或帮助的时候学会小心谨慎,他不知道会做什么。 他只是知道这不是要做的。 这是一个蹩脚的比喻,但你明白了!
我们刚刚开始使用机器学习。 分类本身可以是连续数字的分类或标签的分类。 例如,如果Kylo需要分类每个冲锋队员的身高,那么会有很多答案,因为身高可以是5.0,5.01,5.011等等。但是简单的分类就像轻型军刀(红色,蓝色绿色)答案将非常有限。 事实上,他们可以用简单的数字来表示。 红色可以是0,蓝色可以是1,绿色可以是2。
如果你知道基本的math,你知道0,1,2和5.1,5.01,5.011是不同的,分别被称为离散和连续的数字。 离散数的分类称为Logistic回归,连续数的分类称为回归。 Logistic回归也被称为分类分类,所以当你在其他地方读这个术语时不要混淆
这是对机器学习非常基本的介绍。 我将在下一篇文章中详细讨论统计方面的内容。 请让我知道如果我需要任何更正:)
第二部分张贴在这里http://ow.ly/Z1htY
分类
基于从示例中学习 ,是否将预定义的类分配给新的观察值 ?
这是机器学习的关键任务之一。
聚类(或聚类分析)
虽然普遍被视为“无监督分类”,但情况却大不相同。
与许多机器学习者会教给你的东西不同,它不是将“类”分配给对象,而是不预定义它们。 这是过分分类的人的非常有限的观点; 一个典型的例子, 如果你有一个锤子(分类器),一切看起来像一个钉子(分类问题)给你 。 但这也是为什么分类人员没有得到聚类的一个坑。
相反,将其视为结构发现 。 聚类的任务是在数据中查找以前不知道的结构(例如组)。 如果你学到了新的东西,集群就成功了。 它失败了,如果你只有你已经知道的结构。
聚类分析是数据挖掘(以及机器学习中的丑小鸭)的一个关键任务,所以不要听机器学习者抛弃聚类。
“无监督学习”有点像Oxymoron
这已经在文献中迭代了,但是无监督学习是不可能的 。 它不存在,但它是像“军事情报”的矛盾。
algorithm从例子中学习(然后是“监督学习”),或者它不学习。 如果所有的聚类方法都是“学习”,那么计算数据集的最小值,最大值和平均值就是“无监督学习”。 然后任何计算“学习”其输出。 因此,术语“无监督学习”是完全没有意义的 ,它意味着什么都没有。
然而,一些“无监督学习”algorithm属于优化类别。 例如,k-means 是最小二乘法优化。 这些方法都是统计的,所以我觉得我们不需要把它们标注为“无监督学习”,而应该继续称之为“优化问题”。 它更精确,更有意义。 有许多不涉及优化的聚类algorithm,而且不适合机器学习范例。 所以不要在“无监督学习”的保护伞下把它们挤在那里。
有一些与学习相关的“学习”,但不是学习的程序。 这是用户应该学习关于他的数据集的新东西。
我是数据挖掘的新成员,但正如我的教科书所说,CLASSICIATION应该是监督式学习和CLUSTERING无监督学习。 有监督学习和无监督学习的区别可以在这里find。
分类 – 预测分类类标签 – 基于训练集和类标签属性中的值(类标签)分类数据(构build模型) – 使用模型分类新数据
集群:数据对象的集合 – 在同一集群中彼此类似 – 与其他集群中的对象不相似
聚类旨在find数据中的组。 “集群”是一个直观的概念,没有一个math严谨的定义。 一个集群的成员应该是相似的,而不同于其他集群的成员。 聚类algorithm在未标记的数据集Z上运行,并在其上产生分区。
对于类和类标签,类包含类似的对象,而来自不同类的对象是不相似的。 有些类别有明确的含义,在最简单的情况下是相互排斥的。 例如,在签名validation中,签名是真实的或伪造的。 真正的阶级是二者中的一个,不pipe从某个特定的签名的观察我们可能无法正确猜测。
通过聚类,您可以将数据与所需的属性(如数字,形状和提取的聚类的其他属性)进行分组。 而在分类中,组的数量和形状是固定的。 大多数聚类algorithm都将聚类数量作为参数。 但是,有一些方法可以找出适当数量的簇。
如果您正在尝试将大量的表单放在您的书架上(基于date或文件的某个其他规范),则您正在分类。
如果您要从一组工作表创build集群,则意味着工作表中有类似的东西。
数据挖掘有“监督”和“无监督”两种定义。 当有人告诉计算机,algorithm,代码,…这东西就像一个苹果,那东西就像一个桔子,这是监督学习,并使用监督学习(如数据集中的每个样本标签)分类数据,你会得到分类。 但另一方面,如果让计算机找出什么是什么,并区分给定数据集的特征,实际上学习是无监督的,那么对数据集进行分类就称为聚类。 在这种情况下,提供给algorithm的数据没有标签,algorithm应该找出不同的类。
聚类是一种将对象分组的方法,使具有相似特征的对象聚集在一起,而具有不同特征的对象则分开。 这是用于机器学习和数据挖掘的统计数据分析的常用技术。
分类是一个分类过程,其中根据数据的训练集识别,区分和理解对象。 分类是一种监督式学习技术,可以使用训练集和正确定义的观察结果。
从“Mahout in Action”一书中,我认为它很好地解释了这种差异:
分类algorithm与聚类algorithm(如k-meansalgorithm)有关,但仍然非常不同。
分类algorithm是监督式学习的一种forms,与无监督学习相反,这种情况发生在聚类algorithm中。
监督式学习algorithm就是给出一个包含目标variables所需值的例子。 无监督algorithm没有得到所需的答案,而是必须自己find合理的东西。
机器学习或人工智能很大程度上由其执行/实现的任务所感知。
在我看来,通过在任务概念中思考聚类和分类,可以真正帮助理解两者之间的区别。
聚类是分组的东西,分类是,类,标签的东西。
假设你在一个派对礼堂里,所有男人都穿着西装,女人穿着礼服。
现在,你问你的朋友几个问题:
Q1:Heyy,你能帮我组队吗?
你的朋友可以给的答案是:
1:他可以根据性别,男性或女性来分组
2:他可以根据自己的衣服分组,其中1人穿着其他的礼服
3:他可以根据自己头发的颜色来分组
4:他可以根据他们的年龄组等等来分组。
他们的方式很多,你的朋友可以完成这个任务。
当然,您可以通过提供额外的input来影响他的决策过程,例如:
你能帮我把这些人分成不同的性别(或年龄组,或发色或着装等)
Q2:
在Q2之前,你需要做一些前期工作。
你必须教导或通知你的朋友,以便他可以做出明智的决定。 所以,假设你对你的朋友说:
-
长发的人是女性。
-
短发的人是男人。
Q2。 现在,你指出一个长头发的人,问问你的朋友 – 是男人还是女人?
你可以期待的唯一答案是:女人。
当然,在这个聚会里可以有长头发的女人和有短发的女人。 但是,根据您提供给您朋友的学习,答案是正确的。 您可以通过向您的朋友介绍如何区分两者来进一步改善stream程。
在上面的例子中,
Q1表示聚类达到的任务。
在群集中,你提供数据(人)到algorithm(你的朋友),并要求它将数据分组。
现在,决定什么是最好的分组方法是由algorithm决定的? (性别,肤色或年龄组)。
同样,通过提供额外的input,您肯定可以影响algorithm的决策。
Q2代表分类达到的任务。
在那里,你给你的algorithm(你的朋友)一些数据(人),称为训练数据,并让他学习哪个数据对应哪个标签(男或女)。 然后,将您的algorithm指向特定的数据,称为testing数据,并要求它确定它是男性还是女性。 你的教学越好,预测就越好。
第二季度或分类的前期工作只不过是训练你的模型,以便学习如何区分。 在集群或Q1这个前期工作是分组的一部分。
希望这有助于某人。
谢谢
我相信分类是将数据集中的logging分类到预定义的类中,甚至可以在旅途中定义类。 我把它视为任何有价值的数据挖掘的先决条件,我喜欢在无监督的学习中思考它,即在挖掘数据和分类时,不知道他/她正在寻找什么,是一个很好的起点
另一端的聚类属于监督学习,即知道要查找什么参数,它们之间的关联性以及临界水平。 我相信这需要一些统计和math的理解