logo

Hierarkisk klustring i datautvinning

Hierarkisk klustring hänvisar till en oövervakad inlärningsprocedur som bestämmer successiva kluster baserat på tidigare definierade kluster. Det fungerar genom att gruppera data i ett träd av kluster. Hierarkisk klustringsstatistik genom att behandla varje datapunkt som ett individuellt kluster. Slutpunkten hänvisar till en annan uppsättning kluster, där varje kluster skiljer sig från det andra klustret, och objekten inom varje kluster är desamma som varandra.

Det finns två typer av hierarkisk klustring

  • Agglomerativ hierarkisk klustring
  • Delande klustring

Agglomerativ hierarkisk klustring

Agglomerativ klustring är en av de vanligaste typerna av hierarkisk klustring som används för att gruppera liknande objekt i kluster. Agglomerativ klustring är också känd som AGNES (Agglomerative Nesting). Vid agglomerativ klustring fungerar varje datapunkt som ett individuellt kluster och vid varje steg grupperas dataobjekt i en bottom-up-metod. Inledningsvis finns varje dataobjekt i sitt kluster. Vid varje iteration kombineras klustren med olika kluster tills ett kluster bildas.

Agglomerativ hierarkisk klustringsalgoritm

  1. Bestäm likheten mellan individer och alla andra kluster. (Hitta närhetsmatris).
  2. Betrakta varje datapunkt som ett individuellt kluster.
  3. Kombinera liknande kluster.
  4. Beräkna om närhetsmatrisen för varje kluster.
  5. Upprepa steg 3 och steg 4 tills du får ett enda kluster.

Låt oss förstå detta koncept med hjälp av grafisk representation med hjälp av ett dendrogram.

Med hjälp av given demonstration kan vi förstå hur själva algoritmen fungerar. Här har ingen beräkning gjorts under all närhet mellan klustren antas.

Låt oss anta att vi har sex olika datapunkter P, Q, R, S, T, V.

Hierarkisk klustring i datautvinning

Steg 1:

Betrakta varje alfabet (P, Q, R, S, T, V) som ett individuellt kluster och hitta avståndet mellan det individuella klustret från alla andra kluster.

Steg 2:

Slå nu samman de jämförbara klustren i ett enda kluster. Låt oss säga att kluster Q och Cluster R liknar varandra så att vi kan slå samman dem i det andra steget. Slutligen får vi klustren [(P), (QR), (ST), (V)]

Steg 3:

lista java till array

Här räknar vi om närheten enligt algoritmen och kombinerar de två närmaste klustren [(ST), (V)] tillsammans för att bilda nya kluster som [(P), (QR), (STV)]

Steg 4:

Upprepa samma process. Klustren STV och PQ är jämförbara och kombineras för att bilda ett nytt kluster. Nu har vi [(P), (QQRSTV)].

Steg 5:

Slutligen slås de återstående två klustren samman för att bilda ett enda kluster [(PQRSTV)]

Delande hierarkisk klustring

Delande hierarkisk klustring är precis motsatsen till agglomerativ hierarkisk klustring. I delad hierarkisk klustring betraktas alla datapunkter som ett individuellt kluster, och i varje iteration separeras de datapunkter som inte är lika från klustret. De separerade datapunkterna behandlas som ett individuellt kluster. Slutligen är vi kvar med N kluster.

Hierarkisk klustring i datautvinning

Fördelar med hierarkisk klustring

  • Det är enkelt att implementera och ger bäst resultat i vissa fall.
  • Det är enkelt och resulterar i en hierarki, en struktur som innehåller mer information.
  • Vi behöver inte i förväg specificera antalet kluster.

Nackdelar med hierarkisk klustring

  • Det bryter de stora klungorna.
  • Det är svårt att hantera olika stora kluster och konvexa former.
  • Den är känslig för buller och extremvärden.
  • Algoritmen kan aldrig ändras eller raderas när den väl har gjorts tidigare.