`

聚类与分类区别

 
阅读更多

      分类(classification ):找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。


      分类和回归都可用于预测,两者的目的都是从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。与回归不同的是,分类的输出是离散的类别值,而回归的输出是连续数值。二者常表现为决策树的形式,根据数据值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。

      要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,...,vn; c);其中vi表示字段值,c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。

      不同的分类器有不同的特点。有三种分类器评价或比较尺度:

           1)预测准确度;

           2)计算复杂度;

           3)模型描述的简洁度。

 

      预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务。计算复杂度依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是巨量的数据,因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎。

      另外要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的有空缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据 


     

      聚类(clustering)是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。
当前,聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。

<script type="text/javascript"></script>

1
0
分享到:
评论

相关推荐

    分类和聚类的区别

    分类和聚类的区别

    聚类与分类的区别.pdf

    。。。

    聚类与分类的区别.docx

    。。。

    聚类和分类的区别.pdf

    。。。

    聚类和分类的区别.docx

    。。。

    聚类的经典方法K-means.pptx

    该PPT 共25页,首先梳理聚类和分类的区别,然后描述K-means的具体实现步骤,最后做出总结。

    均值聚类算法

    将得到的结果与(b)中的结果进行比较,并解释差别,包含迭代次数的差别。 (g) 测试的类别数目和初始值为:c = 3, 1m (0) = (0,0,0)t , 2 m (0) = (1,1,1)t , 3m (0) = (−1,0,2)t ,进行实验。 (h) 测试的类别...

    聚类分析和判别分析(doc 44)

    聚类分析(Cluster Analysis)和判别分析(Discriminant Analysis)有相似的作用,都是起到分类的作用。但是,判别分析是已知研究对象分成若干类,并已取得一批已知类别的样品(观测数据)的基础上,根据某些准则对...

    K-均值聚类算法研究

    关于对生活中各种各样的数据的聚类分类问题已经成为众多学者的研究热题之一。聚类和分类的区别在于,聚类没有任何先验知识可循,要通过数据自身的特点,将数据自动的划分到不同的类别中。聚类的基本形式定义为“在已给...

    R语言K-means聚类分析绘图(含数据)

    两者主要区别在于,分类是将一组数据根据不同的类区分,已经知道有哪些类,也就是数据已经有了类的标签。而聚类是一种事先不知道有多少类,通过算法学习,分出来了一些类别。因此,分类跟聚类分别属于有监督学习和无...

    影像聚类:k均值&&ISODATA聚类算法

    这是模式识别的课程作业,有k均值聚类算法和ISODATA聚类算法,正对遥感影像或者图片进行聚类。写的算法较为粗糙,还请大家多多指教!

    python实现机器学习K-means聚类算法.zip

    对于聚类,其实是和分类相对应的,其中分类就是之有标签的。而聚类则是只没有标签的,我们需要将这些无标签的数据,按照各自的属性将他们会聚成不同的类别,从而将他们区分开。 ​ 在k-means算法中,存在着质心和簇...

    ENVI的非监督分类

    非监督分类:也称为聚类分析或点群分类 在多光谱图像中搜寻 定义其自 然相似光谱集群的过程 它不必对影像地物获取先验知识 仅依靠影像上不同类 地物光谱 或纹理 信息进行特征提取 再统计特征的差别来达到分类的目的 ...

    MATLAB技术论坛数据挖掘公开课 01.MATLAB数据挖掘概论 共12页.pdf

    6.2 聚类与分类的区别? 7 6.3 应用实例 7 7 描述与可视化 7 8 数据挖掘的两种类型 7 8.1 自上而下-预测 7 8.2 自下而上-探索 7 8.3 什么是最好的模型? 8 9 数据挖掘的循环过程 8 10 对企业的提示 8 11 启示 9

    K-means聚类算法介绍与利用python实现的代码示例

    今天说K-means聚类算法,但是必须要先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。 分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾...

    KNN算法聚类(doc格式)

    本文首先对比通用搜索引擎与主题搜索引擎的区别,总结主题搜索引擎的优点;然后介绍目前世界上主题搜索引擎技术的发展状况。接着,综述了面向主题中文搜索引擎的设计,详细介绍涉及该领域的三个核心技术:文档分类...

    基于谱聚类的鉴别纠错输出码

    纠错输出代码(ECOC)是解决多类问题的强大框架。 有效地找到具有最大类别区分度的最佳分区是提高其性能的关键... 结果表明,与最新的编码方法相比,我们的建议能够获得相当甚至更好的分类精度,同时降低了计算复杂性。

    调用sklearn库的K-Means聚类分析实例

    #(1)对于K均值聚类,我们需要给定类别的个数n_cluster,默认值为8; #(2)max_iter为迭代的次数,这里设置最大迭代次数为300; #(3)n_init设为10意味着进行10次随机初始化,选择效果最好的一种来作为模型; ...

    【Python_002】RFM人群模型 X Kmeans 聚类算法

    均值区分与利用Kmeans区别在于前者人为划定R、F、M高低界限(以均值为界限),后者为通过不断迭代确定界限(不过两者对于异常点都较为敏感) RFM模型 首先介绍一下RFM模型 R – Recency 最近一次消费的时间 F – ...

    基于MATLAB的SVM支持向量机的数据分类,包括训练,测试,以及数据库

    K均值聚类与有效特征子集的生成:包括K均值聚类子模型和主特征选择子模型。该步骤对上一步骤的结果做进一步处理,产生多个有效特征子集。 第四步: 使用支持向量机和神经网络以及统计方法对上面的多个特征子集合...

Global site tag (gtag.js) - Google Analytics