Hierarchické verzus čiastočné klastrovanie
Zhlukovanie je technika strojového učenia na analýzu údajov a ich rozdelenie do skupín s podobnými údajmi. Tieto skupiny alebo súbory podobných údajov sú známe ako klastre. Klastrová analýza sa zameriava na klastrovacie algoritmy, ktoré dokážu automaticky identifikovať klastre. Hierarchický a Partitional sú dve takéto triedy klastrovacích algoritmov. Hierarchické klastrovacie algoritmy rozdeľujú údaje do hierarchie klastrov. Pariciálne algoritmy rozdeľujú množinu údajov do vzájomne nesúvisiacich oblastí.
Čo je hierarchické zoskupovanie?
Hierarchické klastrovacie algoritmy opakujú cyklus buď zlučovania menších zhlukov do väčších, alebo rozdeľovania väčších zhlukov na menšie. V každom prípade vytvára hierarchiu zhlukov nazývanú dendogram. Stratégia aglomeratívneho klastrovania využíva prístup zdola nahor zlučovania klastrov do väčších, zatiaľ čo stratégia rozdeľujúceho klastrovania využíva prístup zhora nadol rozdeľovania na menšie. Typicky sa chamtivý prístup používa pri rozhodovaní, ktoré väčšie/menšie zhluky sa použijú na zlúčenie/rozdelenie. Euklidovská vzdialenosť, Manhattanská vzdialenosť a kosínusová podobnosť sú niektoré z najčastejšie používaných metrík podobnosti pre číselné údaje. Pre nečíselné údaje sa používajú metriky ako Hammingova vzdialenosť. Je dôležité poznamenať, že skutočné pozorovania (inštancie) nie sú potrebné pre hierarchické zhlukovanie, pretože postačuje iba matica vzdialeností. Dendogram je vizuálna reprezentácia zhlukov, ktorá veľmi jasne zobrazuje hierarchiu. Používateľ môže získať rôzne zhlukovanie v závislosti od úrovne, na ktorej je dendogram vyrezaný.
Čo je čiastočné klastrovanie?
Algoritmy oddielového klastrovania generujú rôzne oddiely a potom ich vyhodnocujú podľa nejakého kritéria. Označujú sa tiež ako nehierarchické, pretože každá inštancia je umiestnená presne v jednom z k vzájomne sa vylučujúcich zhlukov. Pretože len jedna sada klastrov je výstupom typického deliaceho klastrovacieho algoritmu, od užívateľa sa vyžaduje, aby zadal požadovaný počet klastrov (zvyčajne nazývaný k). Jedným z najbežnejšie používaných algoritmov delenia na klastrovanie je algoritmus klastrovania k-means. Od používateľa sa vyžaduje, aby pred spustením uviedol počet klastrov (k) a algoritmus najskôr spustí stredy (alebo ťažiská) k oddielov. Stručne povedané, algoritmus zhlukovania k-means potom priraďuje členov na základe aktuálnych centier a prehodnocuje stredy na základe aktuálnych členov. Tieto dva kroky sa opakujú, kým sa neoptimalizuje určitá cieľová funkcia podobnosti v rámci klastra a cieľová funkcia rozdielnosti medzi klastrami. Preto je rozumná inicializácia centier veľmi dôležitým faktorom pri získavaní kvalitných výsledkov z algoritmov deleného klastrovania.
Aký je rozdiel medzi hierarchickým a čiastočným zoskupovaním?
Hierarchické a čiastočné klastrovanie majú kľúčové rozdiely v prevádzkovom čase, predpokladoch, vstupných parametroch a výsledných klastroch. Oddielové klastrovanie je zvyčajne rýchlejšie ako hierarchické klastrovanie. Hierarchické zhlukovanie vyžaduje iba mieru podobnosti, zatiaľ čo deliace zhlukovanie vyžaduje silnejšie predpoklady, ako je počet zhlukov a počiatočné centrá. Hierarchické klastrovanie nevyžaduje žiadne vstupné parametre, zatiaľ čo algoritmy deleného klastrovania vyžadujú na spustenie počet klastrov. Hierarchické klastrovanie vracia oveľa zmysluplnejšie a subjektívnejšie delenie klastrov, ale výsledkom deleného klastrovania je presne k klastrov. Hierarchické klastrovacie algoritmy sú vhodnejšie pre kategorické údaje, pokiaľ možno primerane definovať mieru podobnosti.