Razlika između KDD i rudarenja podataka

Razlika između KDD i rudarenja podataka
Razlika između KDD i rudarenja podataka

Video: Razlika između KDD i rudarenja podataka

Video: Razlika između KDD i rudarenja podataka
Video: Anemija • Malokrvnost 2024, Decembar
Anonim

KDD vs Data mining

KDD (Otkrivanje znanja u bazama podataka) je polje računarske nauke, koje uključuje alate i teorije koje pomažu ljudima u izdvajanju korisnih i ranije nepoznatih informacija (tj. znanja) iz velikih kolekcija digitaliziranih podataka. KDD se sastoji od nekoliko koraka, a Data Mining je jedan od njih. Data Mining je primjena određenog algoritma za izdvajanje uzoraka iz podataka. Ipak, KDD i Data Mining se koriste naizmjenično.

Šta je KDD?

Kao što je gore pomenuto, KDD je oblast računarske nauke, koja se bavi ekstrakcijom ranije nepoznatih i zanimljivih informacija iz sirovih podataka. KDD je cijeli proces pokušaja da se shvati smisao podataka razvojem odgovarajućih metoda ili tehnika. Ovaj proces se bavi mapiranjem podataka niskog nivoa u druge oblike koji su kompaktniji, apstraktniji i korisniji. Ovo se postiže kreiranjem kratkih izvještaja, modeliranjem procesa generiranja podataka i razvojem prediktivnih modela koji mogu predvidjeti buduće slučajeve. Zbog eksponencijalnog rasta podataka, posebno u oblastima kao što je poslovanje, KDD je postao vrlo važan proces za pretvaranje ovog velikog bogatstva podataka u poslovnu inteligenciju, jer je ručno izdvajanje obrazaca postalo nemoguće u posljednjih nekoliko decenija. Na primjer, trenutno se koristi za različite aplikacije kao što su analiza društvenih mreža, otkrivanje prijevara, nauka, ulaganja, proizvodnja, telekomunikacije, čišćenje podataka, sport, pronalaženje informacija i uglavnom za marketing. KDD se obično koristi za odgovaranje na pitanja poput toga koji su glavni proizvodi koji bi mogli pomoći da se ostvari visok profit sljedeće godine u Wal-Martu?. Ovaj proces ima nekoliko koraka. Počinje razvijanjem razumijevanja domene aplikacije i cilja, a zatim kreiranjem ciljnog skupa podataka. Nakon toga slijedi čišćenje, prethodna obrada, redukcija i projekcija podataka. Sljedeći korak je korištenje Data Mininga (objašnjeno u nastavku) za identifikaciju uzorka. Konačno, otkriveno znanje se konsoliduje vizualizacijom i/ili interpretacijom.

Šta je Data Mining?

Kao što je gore spomenuto, Data Mining je samo korak unutar cjelokupnog KDD procesa. Postoje dva glavna cilja Data Mininga kako je definisano ciljem aplikacije, a to su verifikacija ili otkrivanje. Verifikacija je provjera hipoteze korisnika o podacima, dok otkrivanje automatski pronalazi zanimljive obrasce. Postoje četiri glavna zadatka rudarenja podataka: grupisanje, klasifikacija, regresija i asocijacija (sažimanje). Grupiranje je identificiranje sličnih grupa iz nestrukturiranih podataka. Klasifikacija je učenje pravila koja se mogu primijeniti na nove podatke. Regresija je pronalaženje funkcija s minimalnom greškom za modeliranje podataka. A asocijacija traži odnose između varijabli. Zatim treba odabrati određeni algoritam za rudarenje podataka. Ovisno o cilju, mogu se odabrati različiti algoritmi kao što su linearna regresija, logistička regresija, stabla odlučivanja i naivni Bayesovi. Zatim se pretražuju obrasci od interesa u jednom ili više reprezentativnih oblika. Konačno, modeli se procjenjuju ili koristeći prediktivnu tačnost ili razumljivost.

Koja je razlika između KDD i Data mininga?

Iako se dva termina KDD i Data Mining u velikoj mjeri koriste naizmjenično, oni se odnose na dva povezana, ali malo različita koncepta. KDD je cjelokupni proces izvlačenja znanja iz podataka dok je Data Mining korak unutar KDD procesa, koji se bavi identifikacijom obrazaca u podacima. Drugim riječima, Data Mining je samo primjena specifičnog algoritma zasnovanog na ukupnom cilju KDD procesa.

Preporučuje se: