Cluster- eller klusteranalys är en maskininlärningsteknik som grupperar den omärkta datamängden. Det kan definieras som 'Ett sätt att gruppera datapunkterna i olika kluster, bestående av liknande datapunkter. Objekten med möjliga likheter förblir i en grupp som har mindre eller inga likheter med en annan grupp.'
Det gör det genom att hitta några liknande mönster i den omärkta datamängden som form, storlek, färg, beteende, etc., och delar upp dem efter närvaron och frånvaron av dessa liknande mönster.
java datatyper
Det är en oövervakat lärande metod, därför tillhandahålls ingen övervakning till algoritmen, och den behandlar den omärkta datamängden.
Efter att ha tillämpat denna klusterteknik förses varje kluster eller grupp med ett kluster-ID. ML-systemet kan använda detta ID för att förenkla bearbetningen av stora och komplexa datamängder.
Klustringstekniken används ofta för statistisk dataanalys.
Obs: Clustering liknar någonstans klassificeringsalgoritm , men skillnaden är vilken typ av datauppsättning som vi använder. Vid klassificering arbetar vi med den märkta datamängden, medan vi vid klustring arbetar med den omärkta datamängden.
Exempel : Låt oss förstå klustringstekniken med det verkliga exemplet Mall: När vi besöker ett köpcentrum kan vi observera att saker med liknande användning är grupperade tillsammans. Såsom t-shirtarna är grupperade i en sektion och byxor i andra sektioner, på samma sätt, vid grönsaksavdelningar, äpplen, bananer, mango, etc., är grupperade i separata sektioner, så att vi enkelt kan ta reda på sakerna. Klustringstekniken fungerar också på samma sätt. Andra exempel på klustring är att gruppera dokument efter ämnet.
Klustringstekniken kan användas i stor utsträckning i olika uppgifter. Några vanligaste användningsområden för denna teknik är:
- Marknadssegmentering
- Statistisk dataanalys
- Analys av sociala nätverk
- Bildsegmentering
- Avvikelsedetektering etc.
Bortsett från dessa allmänna användningar, används den av Amazon i sitt rekommendationssystem för att tillhandahålla rekommendationerna enligt den tidigare sökningen av produkter. Netflix använder också denna teknik för att rekommendera filmer och webbserier till sina användare enligt visningshistoriken.
Diagrammet nedan förklarar hur klustringsalgoritmen fungerar. Vi kan se de olika frukterna är uppdelade i flera grupper med liknande egenskaper.
handledning för javafx
Typer av klustringsmetoder
Klustringsmetoderna är brett uppdelade i Hård klustring (datapunkten tillhör endast en grupp) och Mjuk klustring (datapunkter kan också tillhöra en annan grupp). Men det finns också andra olika metoder för Clustering. Nedan är de viktigaste klustringsmetoderna som används i maskininlärning:
Partitionering Clustering
Det är en typ av klustring som delar in data i icke-hierarkiska grupper. Det är också känt som tyngdpunktsbaserad metod . Det vanligaste exemplet på partitioneringsklustring är K-Means Clustering-algoritm .
I denna typ är datasetet uppdelat i en uppsättning av k grupper, där K används för att definiera antalet fördefinierade grupper. Klustercentrum skapas på ett sådant sätt att avståndet mellan datapunkterna i ett kluster är minimalt jämfört med ett annat klustercentrum.
Densitetsbaserad klustring
Den densitetsbaserade klustringsmetoden förbinder de mycket täta områdena till kluster, och de godtyckligt formade fördelningarna bildas så länge som det täta området kan kopplas samman. Denna algoritm gör det genom att identifiera olika kluster i datamängden och kopplar samman områden med hög densitet till kluster. De täta områdena i datarymden är uppdelade från varandra av glesare områden.
Dessa algoritmer kan ha svårt att gruppera datapunkterna om datamängden har varierande densiteter och höga dimensioner.
Distributionsmodellbaserad klustring
I den distributionsmodellbaserade klustringsmetoden delas data upp utifrån sannolikheten för hur en datamängd tillhör en viss distribution. Grupperingen görs genom att anta att vissa fördelningar är vanliga Gaussisk distribution .
Exemplet på denna typ är Förväntningsmaximering Klustringsalgoritm som använder Gaussian Mixture Models (GMM).
Hierarkisk klustring
Hierarkisk klustring kan användas som ett alternativ för den partitionerade klustringen eftersom det inte finns något krav på att i förväg specificera antalet kluster som ska skapas. I den här tekniken delas datasetet in i kluster för att skapa en trädliknande struktur, som också kallas en dendrogram . Observationerna eller valfritt antal kluster kan väljas genom att kapa trädet på rätt nivå. Det vanligaste exemplet på denna metod är Agglomerativ hierarkisk algoritm .
Fuzzy Clustering
Fuzzy clustering är en typ av mjuk metod där ett dataobjekt kan tillhöra mer än en grupp eller kluster. Varje datauppsättning har en uppsättning medlemskapskoefficienter, som beror på graden av medlemskap som ska vara i ett kluster. Fuzzy C-means algoritm är exemplet på denna typ av klustring; den är ibland också känd som Fuzzy k-means-algoritmen.
Algoritmer för kluster
Clustering-algoritmerna kan delas upp baserat på deras modeller som förklaras ovan. Det finns olika typer av klustringsalgoritmer publicerade, men endast ett fåtal används ofta. Klustringsalgoritmen är baserad på den typ av data som vi använder. Som till exempel, vissa algoritmer behöver gissa antalet kluster i den givna datamängden, medan vissa krävs för att hitta det minsta avståndet mellan observationen av datamängden.
Här diskuterar vi främst populära klustringsalgoritmer som används i stor utsträckning inom maskininlärning:
vad är en speciell karaktär
Tillämpningar av Clustering
Nedan är några allmänt kända tillämpningar av klustringsteknik i maskininlärning: