Kľúčový rozdiel medzi klastrovaním a klasifikáciou je v tom, že klastrovanie je technika učenia bez dozoru, ktorá zoskupuje podobné inštancie na základe funkcií, zatiaľ čo klasifikácia je technika učenia pod dohľadom, ktorá priraďuje preddefinované značky inštanciám na základe funkcií.
Hoci sa zhlukovanie a klasifikácia javia ako podobné procesy, existuje medzi nimi rozdiel na základe ich významu. Vo svete dolovania údajov sú zhlukovanie a klasifikácia dva typy metód učenia. Obe tieto metódy charakterizujú objekty do skupín podľa jedného alebo viacerých znakov.
Čo je klastrovanie?
Zhlukovanie je metóda zoskupovania objektov takým spôsobom, že objekty s podobnými vlastnosťami sa spájajú a objekty s rozdielnymi vlastnosťami sa oddeľujú. Je to bežná technika štatistickej analýzy údajov pre strojové učenie a dolovanie údajov. Prieskumná analýza údajov a zovšeobecnenie sú tiež oblasťou, ktorá využíva zhlukovanie.
Obrázok 01: Zoskupovanie
Zhlukovanie patrí k dolovaniu dát bez dozoru. Nie je to jediný špecifický algoritmus, ale je to všeobecná metóda riešenia úlohy. Preto je možné dosiahnuť zhlukovanie pomocou rôznych algoritmov. Príslušný klastrový algoritmus a nastavenia parametrov závisia od jednotlivých súborov údajov. Nie je to automatická úloha, ale ide o iteratívny proces objavovania. Preto je potrebné upravovať spracovanie dát a modelovanie parametrov, kým výsledok nedosiahne požadované vlastnosti. Klastrovanie K-means a Hierarchické klastrovanie sú dva bežné klastrovacie algoritmy pri dolovaní údajov.
Čo je klasifikácia?
Klasifikácia je kategorizačný proces, ktorý využíva trénovací súbor údajov na rozpoznanie, rozlíšenie a pochopenie objektov. Klasifikácia je technika učenia pod dohľadom, kde je k dispozícii tréningový súbor a správne definované pozorovania.
Obrázok 02: Klasifikácia
Algoritmus, ktorý implementuje klasifikáciu, je klasifikátor, zatiaľ čo pozorovania sú inštancie. Algoritmus K-Nearest Neighbor a algoritmy rozhodovacieho stromu sú najznámejšie klasifikačné algoritmy v dolovaní údajov.
Aký je rozdiel medzi zoskupovaním a klasifikáciou?
Zhlukovanie je učenie bez dozoru, zatiaľ čo klasifikácia je technika učenia pod dohľadom. Zoskupuje podobné inštancie na základe vlastností, zatiaľ čo klasifikácia priraďuje preddefinované značky inštanciám na základe vlastností. Klastrovanie rozdeľuje množinu údajov na podmnožiny, aby sa zoskupili inštancie s podobnými funkciami. Nepoužíva označené údaje ani tréningovú množinu. Na druhej strane kategorizujte nové údaje podľa pozorovaní tréningového súboru. Tréningová súprava je označená.
Cieľom klastrovania je zoskupiť množinu objektov, aby sa zistilo, či medzi nimi existuje nejaký vzťah, zatiaľ čo klasifikácia má za cieľ nájsť, do ktorej triedy nový objekt patrí zo množiny preddefinovaných tried.
Súhrn – Klastrovanie vs klasifikácia
Zhlukovanie a klasifikácia sa môžu zdať podobné, pretože oba algoritmy dolovania údajov rozdeľujú množinu údajov na podmnožiny, ale ide o dve rôzne techniky učenia sa pri dolovaní údajov na získanie spoľahlivých informácií zo zbierky nespracovaných údajov. Rozdiel medzi klastrovaním a klasifikáciou je v tom, že klastrovanie je technika učenia bez dozoru, ktorá zoskupuje podobné prípady na základe funkcií, zatiaľ čo klasifikácia je technika učenia pod dohľadom, ktorá priraďuje preddefinované značky k inštanciám na základe funkcií.
S láskavým dovolením obrázka:
1.”Cluster-2″ od Cluster-2.gif: odvodené dielo hellisp: (Public Domain) cez Wikimedia Commons 2”Magnetism” od Johna Aplesseda – Vlastné dielo. (Public Domain) cez Wikimedia Commons