Rozdiel medzi KDD a ťažbou dát

Rozdiel medzi KDD a ťažbou dát
Rozdiel medzi KDD a ťažbou dát

Video: Rozdiel medzi KDD a ťažbou dát

Video: Rozdiel medzi KDD a ťažbou dát
Video: Stanice na výmenu batérií elektromobilov NIO - technológia 2024, November
Anonim

KDD vs ťažba dát

KDD (Knowledge Discovery in Databases) je oblasť počítačovej vedy, ktorá zahŕňa nástroje a teórie na pomoc ľuďom pri získavaní užitočných a predtým neznámych informácií (t. j. vedomostí) z veľkých zbierok digitalizovaných údajov. KDD pozostáva z niekoľkých krokov a dolovanie dát je jedným z nich. Data Mining je aplikácia špecifického algoritmu na extrahovanie vzorov z údajov. KDD a dolovanie údajov sa však používajú zameniteľne.

Čo je KDD?

Ako už bolo spomenuté vyššie, KDD je oblasť počítačovej vedy, ktorá sa zaoberá extrakciou dovtedy neznámych a zaujímavých informácií z nespracovaných dát. KDD je celý proces pokusu o pochopenie údajov vývojom vhodných metód alebo techník. Tento proces sa zaoberá mapovaním údajov nízkej úrovne do iných foriem, ktoré sú kompaktnejšie, abstraktnejšie a užitočnejšie. Dosahuje sa to vytváraním krátkych správ, modelovaním procesu generovania údajov a vývojom prediktívnych modelov, ktoré dokážu predpovedať budúce prípady. V dôsledku exponenciálneho rastu údajov, najmä v oblastiach, ako je podnikanie, sa KDD stal veľmi dôležitým procesom na konverziu tohto veľkého množstva údajov na obchodné spravodajstvo, pretože manuálna extrakcia vzorov sa v posledných desaťročiach zdanlivo stala nemožnou. V súčasnosti sa napríklad používa na rôzne aplikácie, ako je analýza sociálnych sietí, odhaľovanie podvodov, veda, investície, výroba, telekomunikácie, čistenie dát, šport, vyhľadávanie informácií a vo veľkej miere marketing. KDD sa zvyčajne používa na zodpovedanie otázok, ako napríklad aké sú hlavné produkty, ktoré by mohli pomôcť dosiahnuť vysoký zisk v budúcom roku vo Wal-Marte?. Tento proces má niekoľko krokov. Začína sa pochopením aplikačnej domény a cieľa a potom vytvorením cieľového súboru údajov. Nasleduje čistenie, predspracovanie, redukcia a projekcia dát. Ďalším krokom je použitie dolovania údajov (vysvetlené nižšie) na identifikáciu vzoru. Nakoniec sa objavené vedomosti upevňujú vizualizáciou a/alebo interpretáciou.

Čo je dolovanie údajov?

Ako je uvedené vyššie, dolovanie dát je iba krokom v rámci celkového procesu KDD. Existujú dva hlavné ciele dolovania údajov, ako sú definované cieľom aplikácie, a to overenie alebo zisťovanie. Verifikácia overuje hypotézu používateľa o údajoch, zatiaľ čo zisťovanie automaticky nachádza zaujímavé vzorce. Existujú štyri hlavné úlohy dolovania údajov: zhlukovanie, klasifikácia, regresia a asociácia (sumarizácia). Klastrovanie je identifikácia podobných skupín z neštruktúrovaných údajov. Klasifikácia je učenie sa pravidiel, ktoré možno použiť na nové údaje. Regresia je hľadanie funkcií s minimálnou chybou pri modelovaní údajov. A asociácia hľadá vzťahy medzi premennými. Potom je potrebné vybrať špecifický algoritmus dolovania údajov. V závislosti od cieľa je možné vybrať rôzne algoritmy, ako je lineárna regresia, logistická regresia, rozhodovacie stromy a Naive Bayes. Potom sa hľadajú vzorce záujmu v jednej alebo viacerých reprezentatívnych formách. Nakoniec sa modely vyhodnotia buď pomocou prediktívnej presnosti alebo zrozumiteľnosti.

Aký je rozdiel medzi KDD a Data mining?

Hoci dva termíny KDD a Data Mining sa vo veľkej miere používajú zameniteľne, odkazujú na dva súvisiace, ale mierne odlišné koncepty. KDD je celkový proces získavania vedomostí z údajov, zatiaľ čo dolovanie údajov je krokom v rámci procesu KDD, ktorý sa zaoberá identifikáciou vzorov v údajoch. Inými slovami, dolovanie údajov je iba aplikáciou špecifického algoritmu založeného na celkovom cieli procesu KDD.

Odporúča: