| | SLO | ENG | Cookies and privacy

Bigger font | Smaller font

Search the digital library catalog Help

Query: search in
search in
search in
search in
* old and bologna study programme

Options:
  Reset


1 - 1 / 1
First pagePrevious page1Next pageLast page
1.
KLASIFIKACIJA TOPNOSTI PROTEINOV V PROSTORU BIOMEDICINSKIH KONCEPTOV TEKSTOVNE ANALIZE
Simon Kocbek, 2011, dissertation

Abstract: Proteini so pomemben del vsakega organizma in imajo številne pomembne funkcije, katere so v veliki meri odvisne od strukture proteina. Zadnja je mnogokrat predmet raziskav, kjer strokovnjaki izolirajo posamezen protein in proučijo njegove strukturne lastnosti. Na proces izolacije proteina v veliki meri vpliva njegova topnost, saj je protein z nizko stopnjo topnosti zelo težko izolirati. Prav tako so netopni proteini razlog za nekatere pomembne bolezni. Zaradi teh razlogov želijo strokovnjaki velikokrat vnaprej vedeti, kateri proteini imajo več možnosti za visoko stopnjo topnosti. Posledično so se razvile številne metode, ki uporabljajo tehnike nadzorovanega strojnega učenja za klasifikacijo topnosti proteinov. Te metode klasificirajo proteine v topne in ne-topne ter se uporabljajo za napovedovanje topnosti za nove primerke. V disertaciji predlagamo novo metodo za klasifikacijo topnosti proteinov, ki s pomočjo tehnik tekstovnega rudarjenja izlušči medicinsko znanje iz strokovne literature in ga predstavi v obliki atributov. Te atribute poimenujemo atributi biomedicinskih konceptov in predstavljajo novost na področju klasifikacije topnosti proteinov. Do sedaj uporabljene metode so namreč omejene z uporabo atributov, ki so večinoma izpeljani le iz sekvence proteina. V okviru disertacije tako podamo številne znanstvene prispevke. Predlagana je metoda za ekstrakcijo atributov biomedicinskih konceptov iz strokovne literature na podlagi imena oziroma identifikacijske številke proteina. Nadalje ponudimo originalno primerjavo metod, ki uporabljajo nove atribute, z metodami, ki ponujajo že uveljavljene atribute izpeljane iz sekvence proteina. Kot se pokaže v disertaciji, novi atributi doprinesejo k uspešnosti klasifikacije topnosti proteinov. Podan je tudi algoritem za implementacijo najuspešega klasifikatorja z atributi biomedicinskih konceptov. Zadnji prispevek vključuje novo medicinsko znanje, ki ponudi indice o tem, katere skupine besed in besednih zvez iz strokovne literature so najbolj povezane s topnostjo proteinov. Disertacija je sestavljena iz skupno osem poglavij, katera podrobno predstavijo teoretično ozadje področij, kot so nadzorovano strojno učenje, tekstovno rudarjenje ter struktura in topnost proteinov. Obsežen del disertacije je namenjen opisu proteinskih podatkovnih baz, ki ponujajo informacije o topnosti proteinov ter opisu razvite metode in njene primerjave z do sedaj uporabljanimi metodami. Izvedena je empirična primerjava dvajsetih baz sekvenčnih atributov, ki jim postopoma dodajamo nove atribute in spremljamo doprinose k uspešnosti treh pogosto uporabljanih klasifikacijskih metod.
Keywords: strojno učenje, klasifikacija topnosti proteinov, biomedicinski koncept, izbira atributov, tekstovno rudarjenje
Published: 10.11.2011; Views: 1707; Downloads: 123
.pdf Full text (3,74 MB)

Search done in 0.05 sec.
Back to top
Logos of partners University of Maribor University of Ljubljana University of Primorska University of Nova Gorica