Razlika između hijerarhijskog i parcijalnog grupiranja

Razlika između hijerarhijskog i parcijalnog grupiranja
Razlika između hijerarhijskog i parcijalnog grupiranja

Video: Razlika između hijerarhijskog i parcijalnog grupiranja

Video: Razlika između hijerarhijskog i parcijalnog grupiranja
Video: Microsoft Access 2016, 2. dio, Tabele, Veze, importovanje baze iz excella 2024, Novembar
Anonim

Hijerarhijsko naspram parcijalnog grupiranja

Clustering je tehnika mašinskog učenja za analizu podataka i podjelu u grupe sličnih podataka. Ove grupe ili skupovi sličnih podataka poznati su kao klasteri. Analiza klastera razmatra algoritme grupisanja koji mogu automatski identifikovati klastere. Hijerarhijski i Particijski su dvije takve klase algoritama za grupisanje. Algoritmi hijerarhijskog klasteriranja razbijaju podatke u hijerarhiju klastera. Paricijski algoritmi dijele skup podataka u međusobno disjunktne particije.

Šta je hijerarhijsko grupiranje?

Algoritmi hijerarhijskog grupisanja ponavljaju ciklus spajanja manjih klastera u veće ili dijeljenja većih klastera na manje. U svakom slučaju, proizvodi hijerarhiju klastera koji se naziva dendogram. Strategija aglomerativnog klasteriranja koristi pristup odozdo prema gore spajanja klastera u veće, dok strategija klastera podjele koristi pristup odozgo prema dolje razdvajanja na manje. Tipično, pohlepni pristup se koristi u odlučivanju koji se veći/manji klasteri koriste za spajanje/podjelu. Euklidska udaljenost, udaljenost Manhattana i kosinusna sličnost neke su od najčešće korištenih metrika sličnosti za numeričke podatke. Za nenumeričke podatke koristi se metrika kao što je Hamingova udaljenost. Važno je napomenuti da stvarna opažanja (instance) nisu potrebna za hijerarhijsko grupisanje, jer je dovoljna samo matrica udaljenosti. Dendogram je vizuelni prikaz klastera, koji vrlo jasno prikazuje hijerarhiju. Korisnik može dobiti različito grupisanje u zavisnosti od nivoa na kojem je dendogram izrezan.

Šta je particionalno grupisanje?

Algoritmi za particiono grupisanje generišu različite particije i onda ih procenjuju po nekom kriterijumu. Oni se takođe nazivaju nehijerarhijskim jer je svaka instanca smeštena u tačno jedan od k međusobno isključivih klastera. Budući da je samo jedan skup klastera izlaz tipičnog algoritma za particiono grupisanje, od korisnika se traži da unese željeni broj klastera (obično se naziva k). Jedan od najčešće korišćenih algoritama za particiono grupisanje je k-means algoritam grupisanja. Od korisnika se traži da navede broj klastera (k) prije pokretanja i algoritam prvo pokreće centre (ili centre) k particija. Ukratko, k-means algoritam grupiranja zatim dodjeljuje članove na osnovu trenutnih centara i ponovo procjenjuje centre na osnovu trenutnih članova. Ova dva koraka se ponavljaju dok se ne optimiziraju određena ciljna funkcija sličnosti unutar klastera i ciljna funkcija inter-klastera različitosti. Stoga je razumna inicijalizacija centara veoma važan faktor u dobijanju kvalitetnih rezultata iz algoritama particionog grupisanja.

Koja je razlika između hijerarhijskog i parcijalnog grupiranja?

Hijerarhijsko i particiono klasterisanje imaju ključne razlike u vremenu rada, pretpostavkama, ulaznim parametrima i rezultujućim klasterima. Tipično, particiono grupisanje je brže od hijerarhijskog klasterisanja. Hijerarhijsko grupisanje zahtijeva samo mjeru sličnosti, dok particiono klasteriranje zahtijeva jače pretpostavke kao što su broj klastera i početni centri. Hijerarhijsko grupisanje ne zahtijeva nikakve ulazne parametre, dok algoritmi za particiono klasteriranje zahtijevaju broj klastera za pokretanje. Hijerarhijsko klasteriranje daje mnogo značajniju i subjektivniju podelu klastera, ali particiono klasterisanje rezultira tačno k klastera. Hijerarhijski algoritmi za grupisanje su pogodniji za kategoričke podatke sve dok se mjera sličnosti može definirati u skladu s tim.

Preporučuje se: