Iskop podataka vs skladištenje podataka
Imanje podataka i skladištenje podataka su veoma moćne i popularne tehnike za analizu podataka. Korisnici koji su skloni statistici koriste Data Mining. Oni koriste statističke modele da traže skrivene obrasce u podacima. Kopači podataka zainteresovani su za pronalaženje korisnih odnosa između različitih elemenata podataka, što je na kraju profitabilno za preduzeća. Ali s druge strane, stručnjaci za podatke koji mogu direktno analizirati dimenzije poslovanja obično koriste skladišta podataka.
Iskopavanje podataka poznato je i kao otkrivanje znanja u podacima (KDD). Kao što je već spomenuto, to je oblast računarstva koja se bavi ekstrakcijom ranije nepoznatih i zanimljivih informacija iz sirovih podataka. Zbog eksponencijalnog rasta podataka, posebno u oblastima kao što je poslovanje, rudarenje podataka postalo je vrlo važan alat za pretvaranje ovog velikog bogatstva podataka u poslovnu inteligenciju, jer je ručno izdvajanje obrazaca postalo nemoguće u posljednjih nekoliko decenija. Na primjer, trenutno se koristi za različite aplikacije kao što su analiza društvenih mreža, otkrivanje prijevara i marketing. Data mining se obično bavi sljedeća četiri zadatka: grupiranje, klasifikacija, regresija i asocijacija. Grupiranje je identificiranje sličnih grupa iz nestrukturiranih podataka. Klasifikacija je pravila učenja koja se mogu primijeniti na nove podatke i obično će uključivati sljedeće korake: prethodnu obradu podataka, dizajniranje modeliranja, učenje/izbor karakteristika i evaluaciju/validaciju. Regresija je pronalaženje funkcija s minimalnom greškom za modeliranje podataka. A asocijacija traži odnose između varijabli. Data mining se obično koristi da se odgovori na pitanja poput toga koji su glavni proizvodi koji bi mogli pomoći da se ostvari visok profit sljedeće godine u Wal-Martu?
Kao što je gore pomenuto, skladište podataka se takođe koristi za analizu podataka, ali od strane različitih grupa korisnika i malo drugačijih ciljeva na umu. Na primjer, kada je u pitanju maloprodajni sektor, korisnike skladišta podataka više zanima koje su vrste kupovine popularne među kupcima, pa rezultati analize mogu pomoći kupcu poboljšanjem korisničkog iskustva. Ali rudari podataka prvo pretpostavljaju hipotezu kao što je to koji kupci kupuju određenu vrstu proizvoda i analiziraju podatke kako bi testirali hipotezu. Skladištenje podataka mogao bi obaviti veliki trgovac na malo koji u početku skladišti svoje trgovine istim veličinama proizvoda da bi kasnije otkrio da trgovine u New Yorku prodaju manje zalihe mnogo brže nego u trgovinama u Chicagu. Dakle, gledajući ovaj rezultat, trgovac može opskrbiti njujoršku trgovinu manjim veličinama u poređenju sa trgovinama u Čikagu.
Dakle, kao što možete jasno vidjeti, ove dvije vrste analize izgledaju golim okom iste prirode. I jedni i drugi brinu o povećanju profita na osnovu istorijskih podataka. Ali, naravno, postoje ključne razlike. Jednostavno rečeno, Data Mining i Data Warehousing su posvećeni pružanju različitih vrsta analitike, ali definitivno za različite tipove korisnika. Drugim riječima, Data Mining traži korelacije, obrasce koji podržavaju statističku hipotezu. Ali, skladište podataka daje odgovor na relativno šire pitanje i reže podatke odatle pa nadalje kako bi prepoznao načine poboljšanja u budućnosti.