logo

Hierarchinis duomenų gavybos klasterizavimas

Hierarchinis klasterizavimas reiškia neprižiūrimą mokymosi procedūrą, kuri nustato nuoseklias grupes pagal anksčiau apibrėžtas grupes. Jis veikia grupuodamas duomenis į klasterių medį. Hierarchinė grupavimo statistika, kiekvieną duomenų tašką traktuojant kaip atskirą klasterį. Galutinis taškas nurodo skirtingą grupių rinkinį, kur kiekvienas klasteris skiriasi nuo kito klasterio, o objektai kiekviename klasteryje yra tokie patys kaip vienas kito.

Yra dviejų tipų hierarchinės klasterizacijos

  • Aglomeracinis hierarchinis klasterizavimas
  • Skiriamasis klasterizavimas

Aglomeracinis hierarchinis klasterizavimas

Aglomeracinis grupavimas yra vienas iš labiausiai paplitusių hierarchinių klasterizacijos tipų, naudojamų panašiems objektams grupuoti į grupes. Aglomeracinis grupavimas taip pat žinomas kaip AGNES (aglomeracinis lizdas). Aglomeracinio grupavimo metu kiekvienas duomenų taškas veikia kaip atskiras klasteris ir kiekviename žingsnyje duomenų objektai sugrupuojami taikant metodą „iš apačios į viršų“. Iš pradžių kiekvienas duomenų objektas yra savo klasteryje. Kiekvienos iteracijos metu klasteriai sujungiami su skirtingais klasteriais, kol susidaro vienas klasteris.

Aglomeracinis hierarchinis klasterizacijos algoritmas

  1. Nustatykite panašumą tarp individų ir visų kitų grupių. (Rasti artumo matricą).
  2. Apsvarstykite kiekvieną duomenų tašką kaip atskirą grupę.
  3. Sujunkite panašias grupes.
  4. Perskaičiuokite kiekvieno klasterio artumo matricą.
  5. Kartokite 3 ir 4 veiksmus, kol gausite vieną grupę.

Supraskime šią sąvoką grafiniu vaizdu, naudojant dendrogramą.

Pateiktos demonstracijos pagalba galime suprasti, kaip veikia tikrasis algoritmas. Čia nebuvo atliktas joks skaičiavimas, jei daroma prielaida, kad klasterių artumas yra vienas.

Tarkime, kad turime šešis skirtingus duomenų taškus P, Q, R, S, T, V.

Hierarchinis duomenų gavybos klasterizavimas

1 žingsnis:

Apsvarstykite kiekvieną abėcėlę (P, Q, R, S, T, V) kaip atskirą klasterį ir raskite atstumą tarp atskiro klasterio nuo visų kitų grupių.

2 žingsnis:

Dabar sujunkite panašias grupes į vieną klasterį. Tarkime, klasteriai Q ir klasteriai R yra panašūs vienas į kitą, kad galėtume juos sujungti antrajame žingsnyje. Galiausiai gauname grupes [ (P), (QR), (ST), (V)]

3 veiksmas:

log4j

Čia mes perskaičiuojame artumą pagal algoritmą ir sujungiame du artimiausius klasterius [(ST), (V)], kad sudarytume naujas grupes kaip [(P), (QR), (STV)]

4 veiksmas:

Pakartokite tą patį procesą. Klasteriai STV ir PQ yra palyginami ir sujungiami į naują klasterį. Dabar turime [(P), (QQRSTV)].

5 veiksmas:

Galiausiai, likusios dvi klasteriai sujungiami į vieną klasterį [(PQRSTV)]

Skiriamasis hierarchinis klasterizavimas

Skiriamasis hierarchinis klasterizavimas yra visiškai priešingas aglomeraciniam hierarchiniam klasterizavimui. Dalijamajame hierarchiniame klasterizavime visi duomenų taškai laikomi atskiru grupe, o kiekvienoje iteracijoje nepanašūs duomenų taškai yra atskiriami nuo klasterio. Atskirti duomenų taškai traktuojami kaip atskiras klasteris. Galiausiai mums liko N klasterių.

Hierarchinis duomenų gavybos klasterizavimas

Hierarchinio klasterizavimo privalumai

  • Tai paprasta įgyvendinti ir kai kuriais atvejais suteikia geriausią rezultatą.
  • Tai paprasta ir sukuriama hierarchija, struktūra, kurioje yra daugiau informacijos.
  • Nereikia iš anksto nurodyti grupių skaičiaus.

Hierarchinio klasterizavimo trūkumai

  • Jis sulaužo dideles grupes.
  • Sunku valdyti įvairaus dydžio grupes ir išgaubtas formas.
  • Jis jautrus triukšmui ir pašaliniams veiksniams.
  • Algoritmo niekada negalima pakeisti ar ištrinti, kai tai buvo padaryta anksčiau.