Vigtigste Andet K-Means Cluster Analyse

K-Means Cluster Analyse

Oversigt

Software

Beskrivelse

Hjemmesider

Aflæsninger

Kurser

Oversigt

Klyngeanalyse er et sæt datareduktionsteknikker, der er designet til at gruppere lignende observationer i et datasæt, således at observationer i samme gruppe er så ens som hinanden som muligt, og på samme måde er observationer i forskellige grupper så forskellige for hinanden som muligt. Sammenlignet med andre datareduktionsteknikker som faktoranalyse (FA) og hovedkomponentanalyse (PCA), der sigter mod at gruppere efter ligheder på tværs af variabler (kolonner) i et datasæt, tager klyngeanalyse sigte på at gruppere observationer efter ligheder på tværs af rækker.

Beskrivelse

K-middel er en metode til klyngeanalyse, der grupperer observationer ved at minimere euklidiske afstande mellem dem. Euklidiske afstande er analoge til måling af hypotenusen i en trekant, hvor forskellene mellem to observationer på to variabler (x og y) er tilsluttet den pythagoriske ligning for at løse den korteste afstand mellem de to punkter (længden af ​​hypotenusen). Euklidiske afstande kan udvides til n-dimensioner med et hvilket som helst tal n, og afstandene henviser til numeriske forskelle på enhver målt kontinuerlig variabel, ikke kun rumlige eller geometriske afstande. Denne definition af euklidisk afstand kræver derfor, at alle variabler, der bruges til at bestemme klyngedannelse ved hjælp af k-midler, skal være kontinuerlige.

Procedure

For at udføre k-betyder klyngedeling tildeler algoritmen tilfældigt k indledende centre (k specificeret af brugeren), enten ved tilfældigt at vælge punkter i det euklidiske rum defineret af alle n variabler eller ved prøveudtagning af k punkter af alle tilgængelige observationer, der skal tjene som indledende centre. Det tildeler derefter iterativt hver observation til det nærmeste centrum. Dernæst beregner det det nye center for hver klynge som det midroid gennemsnit af klyngevariablerne for hver klynges nye sæt observationer. K-betyder gentager denne proces og tildeler observationer til nærmeste centrum (nogle observationer ændrer klynge). Denne proces gentages, indtil en ny iteration ikke længere tildeler eventuelle observationer til en ny klynge. På dette tidspunkt anses algoritmen for at være konvergeret, og de endelige klyngetildelinger udgør klyngeløsningen.

college spring break 2017 datoer

Der er flere k-betyder algoritmer tilgængelige. Standardalgoritmen er Hartigan-Wong-algoritmen, der sigter mod at minimere de euklidiske afstande af alle punkter med deres nærmeste klyngecentre ved at minimere summen af ​​kvadratiske fejl inden for klyngen (SSE).

Software

K-middel er implementeret i mange statistiske softwareprogrammer:

I R, i klyngepakken, skal du bruge funktionen: k-betyder (x, centre, iter.max = 10, nstart = 1). Dataobjektet, som klyngen skal udføres på, er angivet i x. Antallet af klynger k er angivet af brugeren i centre = #. k-betyder () gentages med forskellige indledende centroider (samplet tilfældigt fra hele datasættet) nstart = # gange og vælg det bedste løb (mindste SSE). iter.max = # indstiller et maksimalt antal tilladte gentagelser (standard er 10) pr. kørsel.

I STATA skal du bruge kommandoen: cluster kmeans [varlist], k (#) [options]. Brug [varlist] til at erklære klyngevariablerne, k (#) for at erklære k. Der er andre muligheder for at specificere lighedstiltag i stedet for euklidiske afstande.

I SAS skal du bruge kommandoen: PROC FASTCLUS maxclusters = k; var [varliste]. Dette kræver angivelse af k og klyngevariablerne i [varlist].

I SPSS skal du bruge funktionen: Analyser -> Klassificer -> K-Means Cluster. Yderligere hjælpefiler er tilgængelige online.

Overvejelser

K-betyder klyngedannelse kræver, at alle variabler er kontinuerlige. Andre metoder, der ikke kræver, at alle variabler skal være kontinuerlige, herunder nogle heirarkiske klyngemetoder, har forskellige antagelser og diskuteres i ressourcelisten nedenfor. K-betyder klyngedannelse kræver også en priori specifikation af antallet af klynger, k. Selvom dette kan gøres empirisk med dataene (ved hjælp af en screeplot til at tegne inden for gruppens SSE mod hver klyngeløsning), skal beslutningen være drevet af teori, og forkert valg kan føre til fejlagtige klynger. Se Peeples 'online R walkthrough R-script til K-betyder klyngeanalyse nedenfor for eksempler på valg af klyngeløsninger.

Valget af klyngevariabler er også af særlig betydning. Generelt kræver klyngeanalysemetoder antagelsen om, at de variabler, der er valgt til at bestemme klynger, er en omfattende repræsentation af den underliggende konstruktion af interesse, der grupperer lignende observationer. Mens variabelvalg forbliver et diskuteret emne, anbefaler konsensus i marken at gruppere så mange variabler som muligt, så længe sættet passer til denne beskrivelse, og de variabler, der ikke beskriver meget af variansen i euklidiske afstande mellem observationer, vil bidrage mindre til klyngetildeling. Følsomhedsanalyser anbefales ved hjælp af forskellige klyngeløsninger og sæt klyngevariabler til at bestemme robustheden i klyngealgoritmen.

K-middel har som standard til formål at minimere summen af ​​kvadratfejl inden for gruppen målt ved euklidiske afstande, men dette er ikke altid berettiget, når dataantagelser ikke er opfyldt. Se lærebøger og online guider i afsnittet om ressourcer nedenfor, især Robinsons R-blog: K-betyder klyngedannelse er ikke en gratis frokost for eksempler på de problemer, der opstår med k-betyder klyngedannelse, når antagelser overtrædes.

Endelig ligner klyngeanalysemetoder andre datareduktionsteknikker, idet de stort set er udforskende værktøjer, og resultater skal derfor fortolkes med forsigtighed. Der findes mange teknikker til validering af resultater fra klyngeanalyse, herunder internt med krydsvalidering eller bootstrapping, validering på konceptuelle grupper teoretiseret a priori eller med ekspertudtalelse eller ekstern validering med separate datasæt. En almindelig anvendelse af klyngeanalyse er som et værktøj til at forudsige klyngemedlemskab på fremtidige observationer ved hjælp af eksisterende data, men det beskriver ikke, hvorfor observationer er grupperet på den måde. Som sådan bruges klyngeanalyse ofte sammen med faktoranalyse, hvor klyngeanalyse bruges til at beskrive, hvordan observationer er ens, og faktoranalyse bruges til at beskrive, hvorfor observationer er ens. I sidste ende skal klyngeanalyseresultaters gyldighed bestemmes ved teori og ved hjælp af klyngebeskrivelser.

Aflæsninger

Lærebøger og kapitler

  1. Aldenderfer MS og Blashfield RK (1984). Klyngeanalyse. Sage University Paper series om kvantitative anvendelser inden for samfundsvidenskab, serie nr. 07-044. Newbury Park, Californien: Sage Publications. Klyngeanalysens grønne bog er en klassisk referencetekst om teori og metoder til klyngeanalyse samt retningslinjer for rapportering af resultater.

  2. Everitt BS, Landau S, Leese M, Stahl D (2011). Cluster Analysis, 5. udgave. Wiley-serien. Dybdegående og moderne beskrivelser af de forskellige typer klyngeanalysemetoder, som området har udviklet sig.

  3. Lorr M (1983). Klyngeanalyse for socialforskere. Jossey-Bass Social and Behavioral Science Series. Lorrs klassiske tekst beskriver relaterede metoder med data, der typisk findes i samfundsvidenskab - K-betyder, at dataantagelser ofte er vanskelige at møde med data inden for samfundsvidenskab, og alternativer diskuteres.

Metodiske artikler

  1. Hauser J og Rybakowski J (1997). Tre klynger af mandlige alkoholikere. Narkotikaalkohol afhænger; 48 (3): 243-50. Et eksempel på gruppering af adfærdstyper i afhængighedsforskning.

    john jay college sovesale
  2. Breuhl S, et al. (1999). Brug af klyngeanalyse til validering af IHS-diagnostiske kriterier for migræne og spændingshovedpine. Hovedpine; 39 (3): 181-9. En undersøgelse af validering af diagnostiske kriterier ved hjælp af k-middel på symptommønstre.

  3. Guthrie E, et al. (2003). Klyngeanalyse af symptomer og adfærd, der søger sundhed, adskiller sig fra undergrupper til patienter med svær irritabel tarmsyndrom. Tarm; 52 (11): 1616-22. Omsorgssøgende adfærdsmønstre differentieres ved klyngeanalyse.

Ansøgningsartikler

  1. MacQueen J (1967). Nogle metoder til klassificering og analyse af multivariate observationer. Forhandlingerne med det 5. Berkeley Symposium om matematik. Statistik. og Prob., bind. 1. Tidlige statistiske metodepapir om k-betyder klyngealgoritmen fra en af ​​de tidlige udviklere.

  2. Salim SZ og Ismail MA. (1984). K-betyder-algoritmer: En generaliseret konvergens teori og karakterisering af lokal optimalitet. IEEE Trans Mønster Anal Mach Intell; 6 (1): 81-7. Metodiske overvejelser og anbefalinger til brug af k-betyder klyngedannelse.

  3. Saeed F, et al. (2012). At kombinere K-betyder klynger af kemiske strukturer ved hjælp af klyngebaseret lighedspartitioneringsalgoritme. Kommunikation inden for computer- og informationsvidenskab; 322: 304-312. En nylig artikel om forbedring af ydeevnen for k-betyder klyngeløsninger gennem multiple iteration og kombinationsmetoder.

Hjemmesider

Forskellige gennemgange til brug af R-software til at udføre k-betyder klyngeanalyse med anvendte eksempler og prøvekode.

  1. statmethods.net: Quick-R: Klyngeanalyse http://www.statmethods.net/advstats/cluster.html

  2. 2. R-statistikblog: K-betyder klyngedannelse http://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/

  3. 3. Peeples MA (2011). R Script til K-betyder klyngeanalyse http://www.mattpeeples.net/kmeans.html

  4. 4. Robinson D (2015). R-bloggere: K-betyder klyngedannelse er ikke en gratis frokost http://www.r-bloggers.com/k-means-clustering-is-not-a-free-lunch/

Tekniske R-ressourcer

  1. York University - Klyngeanalyse R-kommandoer http://wiki.math.yorku.ca/index.php/R:_Cluster_analyse

  2. Hjælpefilen til R kmeans () https://stat.ethz.ch/R-manual/R-devel/library/stats/html/kmeans.html

Relaterede teknikker til reduktion af data

  1. Exploratory factor analysis (EFA) om avanceret epidemiologi

  2. Hovedkomponentanalyse (PCA) om avanceret epidemiologi

Interessante Artikler