| | SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Iskanje po katalogu digitalne knjižnice Pomoč

Iskalni niz: išči po
išči po
išči po
išči po
* po starem in bolonjskem študiju

Opcije:
  Ponastavi


1 - 2 / 2
Na začetekNa prejšnjo stran1Na naslednjo stranNa konec
1.
Izdelava oblikoslovnega označevalnika za slovenski jezik in primerjava z drugimi rešitvami
Goran Hrovat, 2010, diplomsko delo

Opis: V diplomskem delu smo se ukvarjali s področjem računalniško podprtega oblikoslovnega označevanja besedil v slovenskem jeziku. Najprej smo opisali napogostejše probleme, ki se pojavljajo. Nato smo opisali delovanje dveh odprtokodnih oblikoslovnih ozna čevalnikov: Stanford POS Tagger in TreeTagger. V praktičnem delu smo izdelali lastni oblikoslovni ozna čevalnik in prilagodili odprtokodna ozna čevalnika za procesiranje besedil v slovenskem jeziku. Učno mno žico je predstavljal korpus FidaPlus. Rezultate oblikoslovnega označevanja iz vseh treh označevalnikov smo med seboj primerjali.
Ključne besede: oblikoslovno označevanje, procesiranje naravnega jezika, NLP, naravni jezik, slovenski jezik, lematizacija
Objavljeno: 21.06.2010; Ogledov: 2303; Prenosov: 167
.pdf Celotno besedilo (1,68 MB)

2.
Vpliv priprave nestrukturiranih podatkov na klasifikacijo
Špela Pečnik, 2019, magistrsko delo

Opis: V vsakdanjem življenju se v večini primerov srečujemo z nestrukturiranimi podatki v obliki besedil iz različnih virov. Število teh iz dneva v dan narašča, zato obstaja vse večja potreba po njihovi organizaciji in kategorizaciji. Pri teh podatkih je najpomembnejša njihova predpriprava na uporabo v algoritmih strojnega učenja. Za ustrezno pripravo besedila lahko uporabimo različne metode/tehnike predprocesiranja – besedilo pretvorimo v male črke, iz njega odstranimo stop-besede, nad posameznimi besedami uporabimo krnjenje, lematizacijo, besede sestavljamo v fraze različnih dolžin (uni-grame, bi-grame, tri-grame) ali pa jih na primer pretvorimo v vektorsko obliko (ang. word embedding). S pomočjo laboratorijskega eksperimenta smo ugotovili, da nekatere tehnike predobdelave bolj vplivajo na uspešnost klasifikacije kot druge, poleg tega pa ima velik vpliv na uspešnost klasifikacije sam jezik in količina besedila, ter klasifikator, ki ga uporabimo za strojno učenje.
Ključne besede: nestrukturirani podatki, klasifikacija besedil, vektorska predstavitev besedil, krnjenje, lematizacija
Objavljeno: 14.06.2019; Ogledov: 413; Prenosov: 102
.pdf Celotno besedilo (1,49 MB)

Iskanje izvedeno v 0.05 sek.
Na vrh
Logotipi partnerjev Univerza v Mariboru Univerza v Ljubljani Univerza na Primorskem Univerza v Novi Gorici