logo

Klustring i maskininlärning

Cluster- eller klusteranalys är en maskininlärningsteknik som grupperar den omärkta datamängden. Det kan definieras som 'Ett sätt att gruppera datapunkterna i olika kluster, bestående av liknande datapunkter. Objekten med möjliga likheter förblir i en grupp som har mindre eller inga likheter med en annan grupp.'

Det gör det genom att hitta några liknande mönster i den omärkta datamängden som form, storlek, färg, beteende, etc., och delar upp dem efter närvaron och frånvaron av dessa liknande mönster.

java datatyper

Det är en oövervakat lärande metod, därför tillhandahålls ingen övervakning till algoritmen, och den behandlar den omärkta datamängden.

Efter att ha tillämpat denna klusterteknik förses varje kluster eller grupp med ett kluster-ID. ML-systemet kan använda detta ID för att förenkla bearbetningen av stora och komplexa datamängder.

Klustringstekniken används ofta för statistisk dataanalys.

Obs: Clustering liknar någonstans klassificeringsalgoritm , men skillnaden är vilken typ av datauppsättning som vi använder. Vid klassificering arbetar vi med den märkta datamängden, medan vi vid klustring arbetar med den omärkta datamängden.

Exempel : Låt oss förstå klustringstekniken med det verkliga exemplet Mall: När vi besöker ett köpcentrum kan vi observera att saker med liknande användning är grupperade tillsammans. Såsom t-shirtarna är grupperade i en sektion och byxor i andra sektioner, på samma sätt, vid grönsaksavdelningar, äpplen, bananer, mango, etc., är grupperade i separata sektioner, så att vi enkelt kan ta reda på sakerna. Klustringstekniken fungerar också på samma sätt. Andra exempel på klustring är att gruppera dokument efter ämnet.

Klustringstekniken kan användas i stor utsträckning i olika uppgifter. Några vanligaste användningsområden för denna teknik är:

  • Marknadssegmentering
  • Statistisk dataanalys
  • Analys av sociala nätverk
  • Bildsegmentering
  • Avvikelsedetektering etc.

Bortsett från dessa allmänna användningar, används den av Amazon i sitt rekommendationssystem för att tillhandahålla rekommendationerna enligt den tidigare sökningen av produkter. Netflix använder också denna teknik för att rekommendera filmer och webbserier till sina användare enligt visningshistoriken.

Diagrammet nedan förklarar hur klustringsalgoritmen fungerar. Vi kan se de olika frukterna är uppdelade i flera grupper med liknande egenskaper.

handledning för javafx
Klustring i maskininlärning

Typer av klustringsmetoder

Klustringsmetoderna är brett uppdelade i Hård klustring (datapunkten tillhör endast en grupp) och Mjuk klustring (datapunkter kan också tillhöra en annan grupp). Men det finns också andra olika metoder för Clustering. Nedan är de viktigaste klustringsmetoderna som används i maskininlärning:

    Partitionering Clustering Densitetsbaserad klustring Distributionsmodellbaserad klustring Hierarkisk klustring Fuzzy Clustering

Partitionering Clustering

Det är en typ av klustring som delar in data i icke-hierarkiska grupper. Det är också känt som tyngdpunktsbaserad metod . Det vanligaste exemplet på partitioneringsklustring är K-Means Clustering-algoritm .

I denna typ är datasetet uppdelat i en uppsättning av k grupper, där K används för att definiera antalet fördefinierade grupper. Klustercentrum skapas på ett sådant sätt att avståndet mellan datapunkterna i ett kluster är minimalt jämfört med ett annat klustercentrum.

Klustring i maskininlärning

Densitetsbaserad klustring

Den densitetsbaserade klustringsmetoden förbinder de mycket täta områdena till kluster, och de godtyckligt formade fördelningarna bildas så länge som det täta området kan kopplas samman. Denna algoritm gör det genom att identifiera olika kluster i datamängden och kopplar samman områden med hög densitet till kluster. De täta områdena i datarymden är uppdelade från varandra av glesare områden.

Dessa algoritmer kan ha svårt att gruppera datapunkterna om datamängden har varierande densiteter och höga dimensioner.

Klustring i maskininlärning

Distributionsmodellbaserad klustring

I den distributionsmodellbaserade klustringsmetoden delas data upp utifrån sannolikheten för hur en datamängd tillhör en viss distribution. Grupperingen görs genom att anta att vissa fördelningar är vanliga Gaussisk distribution .

Exemplet på denna typ är Förväntningsmaximering Klustringsalgoritm som använder Gaussian Mixture Models (GMM).

Klustring i maskininlärning

Hierarkisk klustring

Hierarkisk klustring kan användas som ett alternativ för den partitionerade klustringen eftersom det inte finns något krav på att i förväg specificera antalet kluster som ska skapas. I den här tekniken delas datasetet in i kluster för att skapa en trädliknande struktur, som också kallas en dendrogram . Observationerna eller valfritt antal kluster kan väljas genom att kapa trädet på rätt nivå. Det vanligaste exemplet på denna metod är Agglomerativ hierarkisk algoritm .

Klustring i maskininlärning

Fuzzy Clustering

Fuzzy clustering är en typ av mjuk metod där ett dataobjekt kan tillhöra mer än en grupp eller kluster. Varje datauppsättning har en uppsättning medlemskapskoefficienter, som beror på graden av medlemskap som ska vara i ett kluster. Fuzzy C-means algoritm är exemplet på denna typ av klustring; den är ibland också känd som Fuzzy k-means-algoritmen.

Algoritmer för kluster

Clustering-algoritmerna kan delas upp baserat på deras modeller som förklaras ovan. Det finns olika typer av klustringsalgoritmer publicerade, men endast ett fåtal används ofta. Klustringsalgoritmen är baserad på den typ av data som vi använder. Som till exempel, vissa algoritmer behöver gissa antalet kluster i den givna datamängden, medan vissa krävs för att hitta det minsta avståndet mellan observationen av datamängden.

Här diskuterar vi främst populära klustringsalgoritmer som används i stor utsträckning inom maskininlärning:

vad är en speciell karaktär
    K-Means algoritm:K-means-algoritmen är en av de mest populära klustringsalgoritmerna. Den klassificerar datamängden genom att dela upp proverna i olika kluster med lika varianser. Antalet kluster måste anges i denna algoritm. Det är snabbt med färre beräkningar som krävs, med den linjära komplexiteten av På). Medelförskjutningsalgoritm:Algoritmen för medelförskjutning försöker hitta de täta områdena i den jämna tätheten av datapunkter. Det är ett exempel på en tyngdpunktsbaserad modell som arbetar med att uppdatera kandidaterna för tyngdpunkten till att vara mitten av punkterna inom en given region.DBSCAN-algoritm:Det står för densitetsbaserad rumslig klustring av applikationer med brus . Det är ett exempel på en densitetsbaserad modell som liknar medelförskjutningen, men med några anmärkningsvärda fördelar. I denna algoritm separeras områdena med hög densitet av områden med låg densitet. På grund av detta kan klustren hittas i vilken godtycklig form som helst.Förväntningsmaximering klustring med GMM:Denna algoritm kan användas som ett alternativ för k-medelalgoritmen eller för de fall där K-medel kan misslyckas. I GMM antas det att datapunkterna är Gaussfördelade.Agglomerativ hierarkisk algoritm:Den agglomerativa hierarkiska algoritmen utför den hierarkiska klustringen nerifrån och upp. I detta behandlas varje datapunkt som ett enda kluster i början och slås sedan samman successivt. Klusterhierarkin kan representeras som en trädstruktur.Affinitetsförökning:Det skiljer sig från andra klustringsalgoritmer eftersom det inte kräver att ange antalet kluster. I detta skickar varje datapunkt ett meddelande mellan paret av datapunkter tills konvergens. Den har O(N2T) tidskomplexitet, vilket är den största nackdelen med denna algoritm.

Tillämpningar av Clustering

Nedan är några allmänt kända tillämpningar av klustringsteknik i maskininlärning:

    Vid identifiering av cancerceller:Klustringsalgoritmerna används i stor utsträckning för identifiering av cancerceller. Den delar upp datauppsättningar för cancer och icke-cancer i olika grupper.I sökmotorer:Sökmotorer arbetar också med klustringstekniken. Sökresultatet visas baserat på det objekt som ligger närmast sökfrågan. Den gör det genom att gruppera liknande dataobjekt i en grupp som är långt från de andra olika objekten. Det korrekta resultatet av en fråga beror på kvaliteten på den använda klustringsalgoritmen.Kundsegmentering:Det används i marknadsundersökningar för att segmentera kunderna baserat på deras val och preferenser.I biologi:Det används i biologiströmmen för att klassificera olika arter av växter och djur med hjälp av bildigenkänningstekniken.I markanvändning:Klustringstekniken används för att identifiera området med liknande markanvändning i GIS-databasen. Detta kan vara mycket användbart för att finna att för vilket ändamål den aktuella marken ska användas, det betyder för vilket ändamål den är mer lämpad.