你的位置:皇冠分红 > 皇冠代理 >
  • 银河娱乐官网8266c体育彩票16139开奖结果 | K-Means算法

    发布日期:2025-07-31 04:12    点击次数:201
    银河娱乐官网8266c体育彩票16139开奖结果 一、什么是 聚类分析

    聚类分析是数据挖掘中的一种雄壮设施,不错匡助咱们发现数据对象中粉饰的有价值信息。聚类分析的中枢念念想是凭据相通性原则将具有较高相通度的数据对象分辨到归拢类簇,从而使得归拢组中的数据点之间具有更高的相通性。

    在聚类算法中,时常包括三个阶段:特征罗致和特征索求、数据对象间相通度计较以及凭据相通度将数据对象分组。凭据不同的聚类面孔,聚类算法不错分为两大类:脉络聚类算法和分辨聚类算法。

    脉络聚类算法试图构建一个高脉络的嵌套聚类树结构,通过不同类别间的数据对象的相通度来竣事。聚类树的构建有两种类型:凝华型脉络聚类(自底进取的面孔组成就结构)和分裂型脉络聚类(自顶向下的面孔组成就结构)。

    皇冠官网

    分辨聚类算法需要预先指定聚类数量和聚类中心,通过优化一些亏欠函数来将数据集分红若干互不相交的簇。这种设施需要预先知说念聚类数量和聚类中心,因此在执行应用中需要严慎罗致。

    二、K-Means聚类算法01 K-Means聚类算法旨趣

    K-Means算法是一种典型的基于分辨的聚类算法,亦然一种无监督学习算法。K-Means算法的念念想很简便,对给定的样本集,用欧氏距离手脚预计数据对象间相通度的目的,相通度与数据对象间的距离成反比,相通度越大,距离越小。

    预先指定运行聚类数以及个运行聚类中心,按照样本之间的距离大小,把样本集分辨为个簇凭据数据对象与聚类中心之间的相通度,不休更新聚类中心的位置,不休裁汰类簇的罪恶频频和(Sum of Squared Error,SSE) ,当SSE不再变化或成见函数管制时,聚类落幕,得到最终适度。

    皇冠体育

    K-Means算法的中枢念念想:领先从数据麇集随即选取k个运行聚类中心 Ci(i≤1≤k),计较其尾数据对象与与聚类中心Ci的欧氏距离,找出离成见数据对象最近的聚类中心Ci,并将数据对象分拨到聚类中心Ci所对应的簇中。然后计较每个簇中数据对象的平均值手脚新的聚类中心,进行下一次迭代,直到聚类中心不再变化或达到最大的迭代次数时住手。

    空间中数据对象与聚类中心间的欧氏距离计较公式为:

    皇冠客服飞机:@seo3687皇冠体育在线bet365体育投注足球运动员需要有坚强的意志力和毅力才能在比赛中获得胜利。银河娱乐官网8266c菠菜娱乐在线平台

    图片

    其中,X为数据对象;Ci为第i个聚类中心;m为数据对象的维度;Xj,Cij为X和Ci的第j个属性值。

    通盘数据集的罪恶频频和SSE计较公式为:

    图片

    其中,SSE的大小默示聚类适度的锐利;k为簇的个数。

    02 K-Means聚类算法环节

    K-Means聚类算法环节内容是EM算法(最大生机算法(Expectation-Maximization algorithm, EM))的模子优化经过,具体环节如下:

    菠菜的平台

    (1)随即罗致k个样本手脚运行簇类的均值向量;

    (2)将每个样本数据集分辨离它距离最近的簇;

    (3)凭据每个样本所属的簇,更新簇类的均值向量;

    (4)类似(2)(3)步,当达到开荒的迭代次数或簇类的均值向量不再调动时,模子构建完成,输出聚类算法适度。

    03 K-Means算法迭代经过

    K-Means聚类算法是一个不休迭代的经过,如图所示,原始数据集有4个簇,图中庸分别代表数据点的横纵坐标值,使用K-Means算法对数据集进行聚类,在对数据集经过两次迭代后得到最终的聚类适度,迭代经过如下图所示。

    图片

    (a)原始数据

    图片

    (b)随即罗致运行中心

    图片

    (c)第一次迭代

    图片

    (d)第二次迭代

    图片

    (e)最终适度

    K-Means聚类算法的劣势

    该算法特出简便且使用平凡,然而主要存在以下四个劣势:

    1. K值需要预先给定 ,属于预先学问,很厚情况下K值的猜度长短常珍惜的,关于像计较一齐微信用户的往复圈这么的场景就透澈的没成见用K-Means进行。关于不错笃定K值不会太大但不解确精准的K值的场景,皇冠现金不错进行迭代运算,然后找出对应的K值,这个值往往能较好地口头有几许个簇类;

    新葡京娱乐网

    2.K-Means算法对运行选取的 聚类中心点是明锐 的,不同的随即种子点得到的聚类适度透澈不同;

    3.该算法并不恰当总计的数据类型。它不可处治非球形簇、不同尺寸和不同密度的簇;

    www.crownpokersitehomehub.com

    4.易堕入局部最优解。

    体育彩票16139开奖结果K-Means 聚类算法的改良

    基于萤火虫优化的加权K-Means算法,独揽萤火虫优化算法的全局搜索智力强,易管制的特质选取K-Means算法的运行聚类中心。

    由于数据属性对聚类适度的影响进程不同,在传统欧式距离的基础上引入权重值,加大了数据的不同属性间的区分进程,摒除了数据麇集噪声点的影响。该算法很好地克服了传统K-Means算法中运行聚类中心难选取和噪声点对聚类适度的影响,莳植了聚类的性能。

    还有基于改良丛林优化算法的K-Means算法,引入衰减因子手脚自恰当步长加速算法聚类速率,联接算术交叉操作,改良传统丛林优化算法易堕入局部最优解、管制慢的时弊,提高聚类精度和聚类准确率。

    将遗传算法与K-Means算法相联接,提高K-Means算法的聚类服从与精准度。该算法领先使用控制排序算法对原始数据麇集的类似数据进行算帐,将去重后的数据进行归一化,计较数据麇集各个数据对象之间的欧氏距离,然后使用公式

    图片

    求数据集的平均欧氏距离,其中,Dis(Si,Sj)为数据对象Si和Sj之间的欧氏距离,An为数据对象的数量。数据麇集的每个数据对象若是与成见点的距离在AvgDis之内,那么以为该数据对象为成见点的周边点,并统计其周边点的数量。将数据麇集各个数据对象的周边点的数量按降序陈设,取其前k个数据对象手脚运行聚类中心进行K-Means聚类。然后独揽遗传算法对K-Means聚类后的适度进行算帐,运行种群是由50个01字符生成的基因序列,罗致每个基因对应的特征手脚K-Means 聚类算法的适度。恰当度函数公式为

    图片

    其中,fi为基因i的恰当度,N为数据麇集数据对象的数量,aik为基因i在聚类适度被分错的数量,l为种群中个体的数量,k为簇的数量。为了计较愈加方便,需要将恰当度进行归一化:

    图片

    其中,fmax和fmin分别代表了种群中恰当度的最大值与最小值。凭据个体的恰当度的大小罗致轮盘对赌区域进行交叉操作和突变操作,摒除数据麇集毋庸的属性特征,若是达到最大迭代次数则输出新种群和最优适度,不然独揽遗传算法继续进行迭代。

    三、回来

    (1)莳植K-Means算法处治海量或多维数据集的智力。跟着大数据时间的到来,咱们所能得到的信息量呈指数式爆炸,若何将K-Means更好地用于处治指数级数据的聚类,亦然咱们需要盘问的所在。

    (2)裁汰K-Means算法的时辰复杂度。改良的K-Means聚类算法有着细致的聚类后果,但这是在殉难了时辰的前提下换来的抖音s级公会银河娱乐,若何能更好更快地莳植聚类智力,需要咱们作念更进一步优化。

    本站仅提供存储做事,总计内容均由用户发布,如发现存害或侵权内容,请点击举报。