| | SLO | ENG | Cookies and privacy

Bigger font | Smaller font

Search the digital library catalog Help

Query: search in
search in
search in
search in
* old and bologna study programme

Options:
  Reset


1 - 2 / 2
First pagePrevious page1Next pageLast page
1.
Izdelava oblikoslovnega označevalnika za slovenski jezik in primerjava z drugimi rešitvami
Goran Hrovat, 2010, undergraduate thesis

Abstract: V diplomskem delu smo se ukvarjali s področjem računalniško podprtega oblikoslovnega označevanja besedil v slovenskem jeziku. Najprej smo opisali napogostejše probleme, ki se pojavljajo. Nato smo opisali delovanje dveh odprtokodnih oblikoslovnih ozna čevalnikov: Stanford POS Tagger in TreeTagger. V praktičnem delu smo izdelali lastni oblikoslovni ozna čevalnik in prilagodili odprtokodna ozna čevalnika za procesiranje besedil v slovenskem jeziku. Učno mno žico je predstavljal korpus FidaPlus. Rezultate oblikoslovnega označevanja iz vseh treh označevalnikov smo med seboj primerjali.
Keywords: oblikoslovno označevanje, procesiranje naravnega jezika, NLP, naravni jezik, slovenski jezik, lematizacija
Published: 21.06.2010; Views: 2304; Downloads: 168
.pdf Full text (1,68 MB)

2.
Vpliv priprave nestrukturiranih podatkov na klasifikacijo
Špela Pečnik, 2019, master's thesis

Abstract: V vsakdanjem življenju se v večini primerov srečujemo z nestrukturiranimi podatki v obliki besedil iz različnih virov. Število teh iz dneva v dan narašča, zato obstaja vse večja potreba po njihovi organizaciji in kategorizaciji. Pri teh podatkih je najpomembnejša njihova predpriprava na uporabo v algoritmih strojnega učenja. Za ustrezno pripravo besedila lahko uporabimo različne metode/tehnike predprocesiranja – besedilo pretvorimo v male črke, iz njega odstranimo stop-besede, nad posameznimi besedami uporabimo krnjenje, lematizacijo, besede sestavljamo v fraze različnih dolžin (uni-grame, bi-grame, tri-grame) ali pa jih na primer pretvorimo v vektorsko obliko (ang. word embedding). S pomočjo laboratorijskega eksperimenta smo ugotovili, da nekatere tehnike predobdelave bolj vplivajo na uspešnost klasifikacije kot druge, poleg tega pa ima velik vpliv na uspešnost klasifikacije sam jezik in količina besedila, ter klasifikator, ki ga uporabimo za strojno učenje.
Keywords: nestrukturirani podatki, klasifikacija besedil, vektorska predstavitev besedil, krnjenje, lematizacija
Published: 14.06.2019; Views: 415; Downloads: 102
.pdf Full text (1,49 MB)

Search done in 0.02 sec.
Back to top
Logos of partners University of Maribor University of Ljubljana University of Primorska University of Nova Gorica