| | SLO | ENG | Cookies and privacy

Bigger font | Smaller font

Search the digital library catalog Help

Query: search in
search in
search in
search in
* old and bologna study programme

Options:
  Reset


1 - 5 / 5
First pagePrevious page1Next pageLast page
1.
2.
3.
PROGRAMSKO OGRODJE ZA PROCESIRANJE BESEDIL V NARAVNEM JEZIKU
Janez Brezovnik, 2009, master's thesis

Abstract: V magistrskem delu predstavimo področje obdelave naravnega jezika in besedilnega rudarjenja ter opišemo opravila obeh področij. Nadaljujemo z opisom generičnega programskega paketa GATE za procesiranje naravnega jezika, predvsem besedil v angleškem jeziku. V glavnem delu predstavimo lastno implementacijo razširljivega programskega paketa za procesiranje besedil v slovenskem jeziku, kjer predstavimo interno zgradbo programskega paketa, podamo podroben primer implementacije programskega dodatka in zgradbo dokumenta, ki hrani rezultate procesiranja. Dodatno opišemo pomembnejše programske dodatke, ki smo jih izdelali. Delovanje programskega paketa predstavimo na konkretnih primerih uporabe.
Keywords: procesiranje naravnega jezika, procesiranje besedil, tekstovno rudarjenje, programsko ogrodje, programski dodatki, slovenski jezik
Published: 06.01.2010; Views: 4311; Downloads: 347
.pdf Full text (1,65 MB)

4.
KLASIFIKACIJA TOPNOSTI PROTEINOV V PROSTORU BIOMEDICINSKIH KONCEPTOV TEKSTOVNE ANALIZE
Simon Kocbek, 2011, dissertation

Abstract: Proteini so pomemben del vsakega organizma in imajo številne pomembne funkcije, katere so v veliki meri odvisne od strukture proteina. Zadnja je mnogokrat predmet raziskav, kjer strokovnjaki izolirajo posamezen protein in proučijo njegove strukturne lastnosti. Na proces izolacije proteina v veliki meri vpliva njegova topnost, saj je protein z nizko stopnjo topnosti zelo težko izolirati. Prav tako so netopni proteini razlog za nekatere pomembne bolezni. Zaradi teh razlogov želijo strokovnjaki velikokrat vnaprej vedeti, kateri proteini imajo več možnosti za visoko stopnjo topnosti. Posledično so se razvile številne metode, ki uporabljajo tehnike nadzorovanega strojnega učenja za klasifikacijo topnosti proteinov. Te metode klasificirajo proteine v topne in ne-topne ter se uporabljajo za napovedovanje topnosti za nove primerke. V disertaciji predlagamo novo metodo za klasifikacijo topnosti proteinov, ki s pomočjo tehnik tekstovnega rudarjenja izlušči medicinsko znanje iz strokovne literature in ga predstavi v obliki atributov. Te atribute poimenujemo atributi biomedicinskih konceptov in predstavljajo novost na področju klasifikacije topnosti proteinov. Do sedaj uporabljene metode so namreč omejene z uporabo atributov, ki so večinoma izpeljani le iz sekvence proteina. V okviru disertacije tako podamo številne znanstvene prispevke. Predlagana je metoda za ekstrakcijo atributov biomedicinskih konceptov iz strokovne literature na podlagi imena oziroma identifikacijske številke proteina. Nadalje ponudimo originalno primerjavo metod, ki uporabljajo nove atribute, z metodami, ki ponujajo že uveljavljene atribute izpeljane iz sekvence proteina. Kot se pokaže v disertaciji, novi atributi doprinesejo k uspešnosti klasifikacije topnosti proteinov. Podan je tudi algoritem za implementacijo najuspešega klasifikatorja z atributi biomedicinskih konceptov. Zadnji prispevek vključuje novo medicinsko znanje, ki ponudi indice o tem, katere skupine besed in besednih zvez iz strokovne literature so najbolj povezane s topnostjo proteinov. Disertacija je sestavljena iz skupno osem poglavij, katera podrobno predstavijo teoretično ozadje področij, kot so nadzorovano strojno učenje, tekstovno rudarjenje ter struktura in topnost proteinov. Obsežen del disertacije je namenjen opisu proteinskih podatkovnih baz, ki ponujajo informacije o topnosti proteinov ter opisu razvite metode in njene primerjave z do sedaj uporabljanimi metodami. Izvedena je empirična primerjava dvajsetih baz sekvenčnih atributov, ki jim postopoma dodajamo nove atribute in spremljamo doprinose k uspešnosti treh pogosto uporabljanih klasifikacijskih metod.
Keywords: strojno učenje, klasifikacija topnosti proteinov, biomedicinski koncept, izbira atributov, tekstovno rudarjenje
Published: 10.11.2011; Views: 1698; Downloads: 119
.pdf Full text (3,74 MB)

5.
Razvoj modela za inteligentno podporo odločanju na osnovi analize nesktrukturiranih vsebin
Miha Pavlinek, 2016, doctoral dissertation

Abstract: V svetu vseprisotnega računalništva se s kopičenjem naprav ter množično uporabo družbenih omrežij, elektronske komunikacije in drugih oblik IKT storitev naglo povečuje tudi količina nestrukturiranih vsebin. To nas sili k uporabi inteligentnih rešitev, ki za nas te vsebine organizirajo, se namesto nas odločajo o njihovi pomembnosti in nam posredujejo zgolj najbolj relevantne med njimi. Osnovna zmožnost takšnih rešitev je klasifikacija vsebin, zato so v njih avtomatski klasifikatorji nepogrešljiv člen. Zanje je tipično, da za učenje potrebujejo številne označene primerke z ustrezno predstavitvijo, v praksi pa označeni primerki niso vedno na voljo, zato je potrebno avtomatske klasifikatorje prilagoditi tako, da so sposobni pri učenju uporabljati tudi druge, neoznačene vsebine. V disertaciji smo predstavili metodo ST LDA (ang. Self-Training with LDA) za klasifikacijo besedil, ki za učenje klasifikatorja potrebuje le minimalno množico označenih in veliko večjo množico neoznačenih primerkov. Predlagali smo algoritem, ki temelji na metodi samoučenja ter predstavitvi besedil na osnovi tematskega modela, kar prinaša dodatne faktorje, od katerih je odvisna njegova uspešnost. Za vsak faktor smo, na podlagi številnih eksperimentov nad sedmimi besedilnimi podatkovnimi zbirkami, ocenili vpliv na uspešnost klasifikacije ter definirali model za določanje vrednosti parametrov, s čimer se izognemo dodatnim nastavitvam. Uspešnost metode smo primerjali z uspešnostjo drugih uveljavljenih metod in predstavitev, pri čemer predlagana metoda ST LDA dosega nadpovprečne rezultate, kar smo navsezadnje potrdili z neparametričnimi statističnimi testi.
Keywords: obdelava naravnega jezika, tekstovno rudarjenje, klasifikacija, tematsko modeliranje, delno nadzorovano učenje, samoučenje
Published: 16.09.2016; Views: 828; Downloads: 98
.pdf Full text (4,13 MB)

Search done in 0.14 sec.
Back to top
Logos of partners University of Maribor University of Ljubljana University of Primorska University of Nova Gorica