SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Iskanje po katalogu digitalne knjižnice Pomoč

Iskalni niz: išči po
išči po
išči po
išči po
* po starem in bolonjskem študiju

Opcije:
  Ponastavi


1 - 5 / 5
Na začetekNa prejšnjo stran1Na naslednjo stranNa konec
1.
2.
3.
PROGRAMSKO ORODJE ZA PROCESIRANJE BESEDIL V NARAVNEM JEZIKU
Janez Brezovnik, 2009, magistrsko delo

Opis: V magistrskem delu predstavimo področje obdelave naravnega jezika in besedilnega rudarjenja ter opišemo opravila obeh področij. Nadaljujemo z opisom generičnega programskega paketa GATE za procesiranje naravnega jezika, predvsem besedil v angleškem jeziku. V glavnem delu predstavimo lastno implementacijo razširljivega programskega paketa za procesiranje besedil v slovenskem jeziku, kjer predstavimo interno zgradbo programskega paketa, podamo podroben primer implementacije programskega dodatka in zgradbo dokumenta, ki hrani rezultate procesiranja. Dodatno opišemo pomembnejše programske dodatke, ki smo jih izdelali. Delovanje programskega paketa predstavimo na konkretnih primerih uporabe.
Ključne besede: procesiranje naravnega jezika, procesiranje besedil, tekstovno rudarjenje, programsko ogrodje, programski dodatki, slovenski jezik
Objavljeno: 06.01.2010; Ogledov: 4211; Prenosov: 338
.pdf Celotno besedilo (1,65 MB)

4.
KLASIFIKACIJA TOPNOSTI PROTEINOV V PROSTORU BIOMEDICINSKIH KONCEPTOV TEKSTOVNE ANALIZE
Simon Kocbek, 2011, doktorska disertacija

Opis: Proteini so pomemben del vsakega organizma in imajo številne pomembne funkcije, katere so v veliki meri odvisne od strukture proteina. Zadnja je mnogokrat predmet raziskav, kjer strokovnjaki izolirajo posamezen protein in proučijo njegove strukturne lastnosti. Na proces izolacije proteina v veliki meri vpliva njegova topnost, saj je protein z nizko stopnjo topnosti zelo težko izolirati. Prav tako so netopni proteini razlog za nekatere pomembne bolezni. Zaradi teh razlogov želijo strokovnjaki velikokrat vnaprej vedeti, kateri proteini imajo več možnosti za visoko stopnjo topnosti. Posledično so se razvile številne metode, ki uporabljajo tehnike nadzorovanega strojnega učenja za klasifikacijo topnosti proteinov. Te metode klasificirajo proteine v topne in ne-topne ter se uporabljajo za napovedovanje topnosti za nove primerke. V disertaciji predlagamo novo metodo za klasifikacijo topnosti proteinov, ki s pomočjo tehnik tekstovnega rudarjenja izlušči medicinsko znanje iz strokovne literature in ga predstavi v obliki atributov. Te atribute poimenujemo atributi biomedicinskih konceptov in predstavljajo novost na področju klasifikacije topnosti proteinov. Do sedaj uporabljene metode so namreč omejene z uporabo atributov, ki so večinoma izpeljani le iz sekvence proteina. V okviru disertacije tako podamo številne znanstvene prispevke. Predlagana je metoda za ekstrakcijo atributov biomedicinskih konceptov iz strokovne literature na podlagi imena oziroma identifikacijske številke proteina. Nadalje ponudimo originalno primerjavo metod, ki uporabljajo nove atribute, z metodami, ki ponujajo že uveljavljene atribute izpeljane iz sekvence proteina. Kot se pokaže v disertaciji, novi atributi doprinesejo k uspešnosti klasifikacije topnosti proteinov. Podan je tudi algoritem za implementacijo najuspešega klasifikatorja z atributi biomedicinskih konceptov. Zadnji prispevek vključuje novo medicinsko znanje, ki ponudi indice o tem, katere skupine besed in besednih zvez iz strokovne literature so najbolj povezane s topnostjo proteinov. Disertacija je sestavljena iz skupno osem poglavij, katera podrobno predstavijo teoretično ozadje področij, kot so nadzorovano strojno učenje, tekstovno rudarjenje ter struktura in topnost proteinov. Obsežen del disertacije je namenjen opisu proteinskih podatkovnih baz, ki ponujajo informacije o topnosti proteinov ter opisu razvite metode in njene primerjave z do sedaj uporabljanimi metodami. Izvedena je empirična primerjava dvajsetih baz sekvenčnih atributov, ki jim postopoma dodajamo nove atribute in spremljamo doprinose k uspešnosti treh pogosto uporabljanih klasifikacijskih metod.
Ključne besede: strojno učenje, klasifikacija topnosti proteinov, biomedicinski koncept, izbira atributov, tekstovno rudarjenje
Objavljeno: 10.11.2011; Ogledov: 1669; Prenosov: 117
.pdf Celotno besedilo (3,74 MB)

5.
Razvoj modela za inteligentno podporo odločanju na osnovi analize nesktrukturiranih vsebin
Miha Pavlinek, 2016, doktorska disertacija

Opis: V svetu vseprisotnega računalništva se s kopičenjem naprav ter množično uporabo družbenih omrežij, elektronske komunikacije in drugih oblik IKT storitev naglo povečuje tudi količina nestrukturiranih vsebin. To nas sili k uporabi inteligentnih rešitev, ki za nas te vsebine organizirajo, se namesto nas odločajo o njihovi pomembnosti in nam posredujejo zgolj najbolj relevantne med njimi. Osnovna zmožnost takšnih rešitev je klasifikacija vsebin, zato so v njih avtomatski klasifikatorji nepogrešljiv člen. Zanje je tipično, da za učenje potrebujejo številne označene primerke z ustrezno predstavitvijo, v praksi pa označeni primerki niso vedno na voljo, zato je potrebno avtomatske klasifikatorje prilagoditi tako, da so sposobni pri učenju uporabljati tudi druge, neoznačene vsebine. V disertaciji smo predstavili metodo ST LDA (ang. Self-Training with LDA) za klasifikacijo besedil, ki za učenje klasifikatorja potrebuje le minimalno množico označenih in veliko večjo množico neoznačenih primerkov. Predlagali smo algoritem, ki temelji na metodi samoučenja ter predstavitvi besedil na osnovi tematskega modela, kar prinaša dodatne faktorje, od katerih je odvisna njegova uspešnost. Za vsak faktor smo, na podlagi številnih eksperimentov nad sedmimi besedilnimi podatkovnimi zbirkami, ocenili vpliv na uspešnost klasifikacije ter definirali model za določanje vrednosti parametrov, s čimer se izognemo dodatnim nastavitvam. Uspešnost metode smo primerjali z uspešnostjo drugih uveljavljenih metod in predstavitev, pri čemer predlagana metoda ST LDA dosega nadpovprečne rezultate, kar smo navsezadnje potrdili z neparametričnimi statističnimi testi.
Ključne besede: obdelava naravnega jezika, tekstovno rudarjenje, klasifikacija, tematsko modeliranje, delno nadzorovano učenje, samoučenje
Objavljeno: 16.09.2016; Ogledov: 760; Prenosov: 90
.pdf Celotno besedilo (4,13 MB)

Iskanje izvedeno v 0.16 sek.
Na vrh
Logotipi partnerjev Univerza v Mariboru Univerza v Ljubljani Univerza na Primorskem Univerza v Novi Gorici