Opis: | Magistrsko delo je sestavljeno iz teoretičnega in praktičnega dela, ki skupaj omogočata celovit pregled nad področjem napovedne analitike podatkov in algoritmov strojnega učenja za klasifikacijo. V teoretičnem delu se poglobljeno ukvarjamo z osnovami napovedne analitike, kjer podrobno obravnavamo glavne algoritme strojnega učenja, ki se uporabljajo za klasifikacijo podatkov. Med temi algoritmi so logistična regresija, odločitveno drevo, naključni gozd, podporni vektorski stroj (SVM) in k-najbližjih sosedov (KNN). Vsakega od teh algoritmov podrobno predstavimo z vidika njihovega delovanja, prednosti in pomanjkljivosti ter primerov uporabe, kje so najučinkovitejši. Posebna pozornost je namenjena razumevanju, kako ti algoritmi obdelujejo podatke ter kako prilagoditev njihovih parametrov vpliva na končne rezultate, kar je ključno za optimalno uporabo v različnih kontekstih in situacijah. Hkrati pa se poglobimo v teoretične osnove delovanja teh algoritmov, kar omogoča boljše razumevanje njihove praktične uporabe v različnih scenarijih.
V teoretičnem delu prav tako podrobno obravnavamo različne metrike ocenjevanja, ki so ključne za merjenje uspešnosti algoritmov strojnega učenja. Te metrike vključujejo priklic, natančnost, točnost, F1 rezultat, Cohenov Kappa, Hammingova izguba in Jaccardov indeks. Vsako od teh metrik natančno predstavimo in pojasnimo njihovo matematično ozadje ter njihov vpliv na oceno delovanja algoritmov v različnih situacijah, še posebej v primerih, ko so podatki neuravnoteženi ali ko so kriteriji za uspešnost drugačni od običajnih. Posebno pozornost namenjamo tudi časovni učinkovitosti algoritmov, saj čas, potreben za učenje in napovedovanje, ponuja pomemben vpogled v njihovo razširljivost in primernost za uporabo na velikih podatkovnih nizih. Prav tako smo izpostavili pomembnost prilagoditve teh metrik glede na specifične zahteve različnih podatkovnih nizov in analitičnih ciljev, kar je ključno za pravilno interpretacijo rezultatov.
Praktični del magistrske naloge je osredotočen na implementacijo in primerjavo omenjenih algoritmov v realnem okolju. Razvili smo orodje, ki omogoča samostojno izvajanje testov in prikaz rezultatov za različne metrike ocenjevanja na sedmih različnih podatkovnih nizih. V tem delu natančno opisujemo postopek razvoja in implementacije te aplikacije za testiranje, pri čemer smo uporabili več Python knjižnic, med njimi scikit-learn, ki je osrednja knjižnica za strojno učenje v Pythonu. Algoritme smo testirali na vseh sedmih podatkovnih nizih, pri čemer smo posebno pozornost namenili časovni učinkovitosti in natančnosti rezultatov. Ta dva dejavnika neposredno vplivata na razširljivost in uporabnost teh metod v realnih aplikacijah, kar je ključno za nadaljnji razvoj in uporabo tehnik strojnega učenja. Poleg tega smo v tem delu analizirali, kako razlike v podatkovnih nizih vplivajo na učinkovitost algoritmov, kar je pomembno za njihovo izbiro v specifičnih scenarijih uporabe.
V zaključnem delu magistrske naloge smo izvedli poglobljeno analizo pridobljenih rezultatov, kjer smo primerjali učinkovitost posameznih algoritmov glede na različne metrike ocenjevanja. Na podlagi te analize smo oblikovali zaključke, ki nudijo poglobljen vpogled v prednosti in omejitve uporabljenih algoritmov. Ugotovili smo, da so logistična regresija, odločitveno drevo, in naključni gozd na večini testiranih podatkovnih nizov izkazali izjemno zmogljivost. Nasprotno so algoritmi, kot sta SVM in KNN, v določenih primerih dosegli nekoliko nižje ocene, kar kaže na potrebo po previdni izbiri algoritma glede na specifične značilnosti podatkov. Poleg tega smo podali priporočila za njihovo optimalno uporabo v prihodnjih raziskavah in realnih aplikacijah na področju napovedne analitike in strojnega učenja, pri čemer smo upoštevali tudi pomembne vidike, kot so robustnost, prilagodljivost, časovna učinkovitost ter praktična uporabnost teh algoritmov v različnih industrijskih sektorjih. |
---|