Data mining vs Data Warehousing
Data mining a Data Warehousing sú veľmi výkonné a obľúbené techniky na analýzu údajov. Používatelia, ktorí inklinujú k štatistikám, využívajú dolovanie údajov. Využívajú štatistické modely na hľadanie skrytých vzorcov v údajoch. Dátoví baníci majú záujem nájsť užitočné vzťahy medzi rôznymi dátovými prvkami, čo je v konečnom dôsledku pre podniky ziskové. Ale na druhej strane dátoví experti, ktorí dokážu priamo analyzovať dimenzie podnikania, majú tendenciu používať dátové sklady.
Data mining je tiež známy ako Knowledge Discovery in data (KDD). Ako už bolo spomenuté vyššie, ide o oblasť informatiky, ktorá sa zaoberá extrakciou dovtedy neznámych a zaujímavých informácií z nespracovaných dát. V dôsledku exponenciálneho rastu údajov, najmä v oblastiach, ako je podnikanie, sa dolovanie údajov stalo veľmi dôležitým nástrojom na premenu tohto veľkého množstva údajov na business intelligence, keďže manuálna extrakcia vzorov sa v posledných desaťročiach zdanlivo stala nemožnou. V súčasnosti sa napríklad používa na rôzne aplikácie, ako je analýza sociálnych sietí, odhaľovanie podvodov a marketing. Data mining sa zvyčajne zaoberá nasledujúcimi štyrmi úlohami: zhlukovanie, klasifikácia, regresia a asociácia. Klastrovanie je identifikácia podobných skupín z neštruktúrovaných údajov. Klasifikácia je učenie sa pravidiel, ktoré možno použiť na nové údaje a zvyčajne zahŕňa nasledujúce kroky: predbežné spracovanie údajov, návrh modelovania, výber učenia/funkcie a hodnotenie/overenie. Regresia je hľadanie funkcií s minimálnou chybou pri modelovaní údajov. A asociácia hľadá vzťahy medzi premennými. Dolovanie údajov sa zvyčajne používa na zodpovedanie otázok, ako napríklad aké sú hlavné produkty, ktoré by mohli v budúcom roku pomôcť dosiahnuť vysoký zisk vo Wal-Marte?
Ako už bolo spomenuté vyššie, dátové sklady sa používajú aj na analýzu údajov, ale rôznymi skupinami používateľov s mierne odlišným cieľom. Napríklad, pokiaľ ide o maloobchodný sektor, používatelia dátových skladov sa viac zaujímajú o to, aké druhy nákupov sú medzi zákazníkmi obľúbené, takže výsledky analýzy môžu zákazníkovi pomôcť zlepšením zákazníckej skúsenosti. Ale dátoví baníci najskôr predpokladajú hypotézu, napríklad ktorí zákazníci kupujú určitý typ produktu, a analyzujú údaje, aby hypotézu otestovali. Dátové sklady by mohol vykonávať veľký maloobchodník, ktorý na začiatku zásobuje svoje obchody výrobkami rovnakej veľkosti, aby neskôr zistil, že obchody v New Yorku predávajú zásoby menšieho objemu oveľa rýchlejšie ako v obchodoch v Chicagu. Takže pri pohľade na tento výsledok môže predajca zásobiť obchod v New Yorku menšími veľkosťami v porovnaní s obchodmi v Chicagu.
Ako teda jasne vidíte, tieto dva typy analýz sa javia voľným okom rovnaké. Obaja sa obávajú zvýšenia zisku na základe historických údajov. Ale, samozrejme, existujú kľúčové rozdiely. Zjednodušene povedané, Data Mining a Data Warehousing sú určené na poskytovanie rôznych typov analytiky, ale určite pre rôzne typy používateľov. Inými slovami, Data Mining hľadá korelácie, vzory na podporu štatistickej hypotézy. Data Warehousing však odpovedá na porovnateľne širšiu otázku a odtiaľ ďalej krája a štiepi údaje, aby rozpoznal spôsoby zlepšenia v budúcnosti.