| | SLO | ENG | Cookies and privacy

Bigger font | Smaller font

Search the digital library catalog Help

Query: search in
search in
search in
search in
* old and bologna study programme

Options:
  Reset


1 - 1 / 1
First pagePrevious page1Next pageLast page
1.
Vpliv priprave nestrukturiranih podatkov na klasifikacijo
Špela Pečnik, 2019, master's thesis

Abstract: V vsakdanjem življenju se v večini primerov srečujemo z nestrukturiranimi podatki v obliki besedil iz različnih virov. Število teh iz dneva v dan narašča, zato obstaja vse večja potreba po njihovi organizaciji in kategorizaciji. Pri teh podatkih je najpomembnejša njihova predpriprava na uporabo v algoritmih strojnega učenja. Za ustrezno pripravo besedila lahko uporabimo različne metode/tehnike predprocesiranja – besedilo pretvorimo v male črke, iz njega odstranimo stop-besede, nad posameznimi besedami uporabimo krnjenje, lematizacijo, besede sestavljamo v fraze različnih dolžin (uni-grame, bi-grame, tri-grame) ali pa jih na primer pretvorimo v vektorsko obliko (ang. word embedding). S pomočjo laboratorijskega eksperimenta smo ugotovili, da nekatere tehnike predobdelave bolj vplivajo na uspešnost klasifikacije kot druge, poleg tega pa ima velik vpliv na uspešnost klasifikacije sam jezik in količina besedila, ter klasifikator, ki ga uporabimo za strojno učenje.
Keywords: nestrukturirani podatki, klasifikacija besedil, vektorska predstavitev besedil, krnjenje, lematizacija
Published: 14.06.2019; Views: 410; Downloads: 102
.pdf Full text (1,49 MB)

Search done in 0.04 sec.
Back to top
Logos of partners University of Maribor University of Ljubljana University of Primorska University of Nova Gorica