1. Primerjava podpornih vektorjev, naključnih gozdov in nevronskih mrež za napoved odziva na zdravljenje z adalimumabom pri slovenskih bolnikih s crohnovo boleznijoKatja Nemec, 2024, master's thesis Abstract: Uvod: V našem magistrskem delu smo želeli ugotoviti učinkovitost metod strojnega učenja pri napovedi odziva bolnikov s Chronovo boleznijo na biološko zdravilo adalimumab.
Metode: Raziskava je vključevala 88 vzorcev, ki so bili analizirani glede na genetske, klinične in mešane podatke v različnih tednih zdravljenja. Uporabljene metode, kot so naključni gozdovi (RF), podporni vektorji (SVM) in nevronske mreže (NNET), so bile evalvirane z uporabo različnih metrik natančnosti, občutljivosti in Youdenovega indeksa.
Rezultati: Rezultati kažejo, da je metoda RF najboljša na mešanih podatkih, SVM izstopa pri kliničnih, medtem ko NNET in RF dosegata najboljše rezultate na genetskih podatkih v različnih obdobjih zdravljenja. Uporaba metode "bagging" je izboljšala natančnost, še posebej pri RF. Kljub temu se zahteva previdnost pri interpretaciji zaradi omejene velikosti vzorca.
Razprava: Naša analiza poudarja potrebo po preudarnem izboru metode, odvisnem od specifičnih značilnosti podatkov in ciljev analize.
Sklep: Naše ugotovitve na podlagi analize predstavljajo osnovo za nadaljnje raziskave v smeri izboljšanja natančnosti modelov napovedi zdravljenja. Keywords: Crohnova bolezen, bioinformatika, napovedni modeli, strojno učenje Published in DKUM: 26.03.2024; Views: 257; Downloads: 22
Full text (3,95 MB) |
2. Primerjava učinkovitosti izvedbe in ponovljivosti rezultatov bioinformatskih analiz RNA sekvenciranja med različnimi posodobitvami programskega okolja RVeronika Dolšak, 2023, master's thesis Abstract: Izhodišče: Razvoj tehnologije sekvenciranja naslednje generacije je močno pospešil hitrost pridobivanja velike količine podatkov sekvenciranja, ki potrebujejo nadaljnje bioinformatske analize, posledično pa je hitro naraslo tudi število programskih orodij za urejanje teh podatkov. Pogosta izbira za analizo podatkov RNA-sekvenciranja (RNA-seq) za odkrivanje genov in poti diferencialnega izražanja genov z zagotavljanjem popolne analize so programski paketi Bioconductor, namenjeni za delo v programskem okolju R. Različice programskega okolja R se pogosto nadgrajujejo, zaradi česar se v praksi opazi različno učinkovitost, kar lahko vpliva na primerljivost rezultatov analiz RNA-seq, analiziranih z več različicami programskega okolja R.
Metode: Surove podatke RNA-seq smo analizirali z uporabo programskih orodij Bioconductor: Rsubread, edgeR in limma, in to v več različicah programskega okolja R: R 3.5, R 3.6, R 4.0, R 4.1 in R 4.2.
Rezultati: Rezultati primerjav učinkovitosti poravnave s programskim orodjem Rsubred kažejo statistično pomembne razlike med primerjavami R 4.2 z ostalimi različicami programskega okolja R, prav tako se kažejo statistično pomembne razlike v rezultatih primerjav analize diferencialnega izražanja genov, pridobljenih z istim cevovodom ukazov med različico R 4.2 in ostalimi različicami R ter med različico R 3.5 in ostalimi različicami R.
Diskusija: Iz rezultatov smo ugotovili, da je treba izvajati analizo podatkov RNA-seq z najnovejšo posodobljeno različico programskega okolja R in najnovejšimi različicami programskih orodij Bioconduktor, kar je še posebnega pomena, kadar izvajamo metaanalizo podatkov RNA-seq iz različnih neodvisnih študij. Keywords: RNA-sekvenciranje, diferencialno izražanja genov, R, bioinformatika Published in DKUM: 13.07.2023; Views: 373; Downloads: 58
Full text (2,09 MB) |
3. Bioinformatski pristopi analize izražanja genov za iskanje možnih molekularnih označevalcev pri raku debelega črevesa in danke (rdčd)Rebeka Planinc, 2022, master's thesis Abstract: Razvoj raka debelega črevesa in danke je večstopenjski proces, pri katerem se karcinom razvije skozi leta iz sprememb na steni črevesa – polipov. Nove raziskave se osredotočajo na posebne strategije za diagnozo in odkrivanje RDČD, kot je iskanje molekularnih označevalcev. Za opravljanje takšnih genetskih raziskav, med katere spada analiza diferenčnega izražanja genov, uporabljamo metode in algoritme bioinformatike. V okviru empiričnega dela smo opravili raziskavo, ki je temeljila tako na kvantitativni kot kvalitativni metodologiji raziskovanja. Iz podatkovne baze Omnibus smo s pomočjo programskega jezika Python in R identificirali diferenčno izražene gene pri RDČD. Izbira kandidatnih genov je bila izvedena s pomočjo bioinformatskih programov The human protein atlas, KEGG, DAVID in Enrichr. Kot možne molekularne označevalce smo izbrali gene REG4, AQP8, SLC4A4, TAOK1, IL1RN in INSL5, za raziskavo katerih je sledilo praktično laboratorijsko delo. V svoji študiji smo uporabili klinične vzorce 97 pacientov s spremenjeno patologijo in 25 pacientov z normalno sluznico, iz katerih se je izolirala RNK in izvedla RT-PCR z uporabo sond TaqMan. Rezultati analize ekspresije genov so odkrili gene AQP8, SLC4A4, TAOK1 in REG4 kot potencialne nove biološke označevalce pri RDČD. Zanje je bila odkrita statistično značilna razlika v izražanju pri patološkem tkivu polipov v primerjavi z normalno sluznico. Gena IL1RN in INSL5 se nista pokazala za primerna biološka označevalca. Bioinformatika raka in iskanje novih molekularnih označevalcev je eden najbolj kritičnih in uporabnih pristopov k medicini za klinične raziskave ter izboljšanje rezultatov bolnikov z RDČD. Keywords: rak debelega črevesa in danke, presejanje, diferenčno izražanje genov, molekularni biološki označevalec, bioinformatika. Published in DKUM: 19.12.2022; Views: 661; Downloads: 84
Full text (1,66 MB) |
4. |
5. Primerjava bioinformatskih orodij za anotacijo podatkov eksoma pridobljenih z dna sekvenciranjem naslednje generacijeMiklavž Toplak, 2021, master's thesis Abstract: Uvod: Genomska anotacija je ključen korak po sekvenciranju DNA, saj nam pomaga identificirati ključne funkcionalne elemente nukleotidnega zaporedja ter nam s tem priskrbi pomen nukleotidnega zaporedja, ki nas zanima. Eksom je definiran kot nukleotidno zaporedje, ki obsega vse eksome vseh genov, ki kodirajo proteine v genomu. Eksom predstavlja med 1 in 2 % celotnega genoma, vsebuje pa kar 85 % znanih različic, ki povzročajo bolezni.
Metode: V empiričnem delu naloge smo v začetku zbrali vsa izbrana orodja za anotacijo in jih naložili na naš namizni računalnik, nato pa smo z vsakim od orodij izvedli anotacijo na podatkih pridobljenih v laboratoriju Centra za humano molekularno genetiko in farmakogenomiko Medicinske fakultete Univerze v Mariboru s sekvenciranjem naslednje generacije DNA izoliranih iz 24 bolnikov. Podatke sekvenciranja eksoma v VCF formatu smo analiziraliz bioinformatskimi orodji ANNOVAR, Exomiser, VarAFT, SnpEff in Ensembl VEP. Vsa orodja z izjemo VarAFT so orodja, ki se zaganjajo iz ukaznega poziva, medtem ko VafAFT deluje kot samostojna aplikacija. Ko smo zaključili z anotacijo vseh vzorcev, smo v teh anotiranih vzorcih skušali poiskati vzročne mutacije, ki smo jih pridobili predhodno, pri čemer smo uporabili tudi orodje za filtriranje SnpSift.
Rezultati: Rezultati anotacije z izbranimi orodji so se med posameznimi orodji nekoliko razlikovali pri vrednostih vmesnih parametrov, ki jih orodja izračunajo na podlagi svojih algoritmov, medtem ko smo pri zaznavanju tipov in lokacij različic ter tega, kaj določena različica povzroči, dobili dokaj podobne rezultate. Rezultati primerjave orodij, ki smo jo izvedli na podlagi tega, ali je orodje zaznalo vzročno mutacijo v vzorcu, pa so nam pokazali, da se orodja med seboj kar precej razlikujejo, saj je orodje ANNOVAR zaznalo 50 % vseh vzročnih mutacij, VarAFT 35,7 %, Exomiser 28,5 %, medtem ko sta orodji SnpEff in VEP zaznali le 21,4 % vseh vzročnih mutacij.
Diskusija: Ugotovili smo, da je bilo orodje ANNOVAR najuspešnejše pri zaznavanju vzročnih mutacij. Zaradi majhnega števila vzorcev (14 vzročnih mutacij v 24 vzorcih) bo rezultate naše primerjave učinkovitosti preiskovanih orodij potrebno potrditi še na večjem številu vzorcev. Keywords: NGS, anotacija, bioinformatika, eksom Published in DKUM: 10.01.2022; Views: 1275; Downloads: 114
Full text (7,93 MB) |
6. Implementacija avtomatiziranega pristopa k analizi podatkov DNA sekvenciranjaDragana Bjelić, 2020, master's thesis Abstract: Uvod: Z razvojem tehnologije sekvenciranja DNA in naraščanjem podatkov se povečuje tudi potreba po kvalitetni analizi in interpretaciji podatkov. Prav tako sta pomembna hitrost in zanesljivost klasificiranja posameznikov za določen genotip. Pri metodi sekvenciranja naslednje generacije (NGS) to klasificiranje temelji na klicanju različic, ki je sklepanje, da na določenem mestu obstaja razlika v nukleotidu v primerjavi z referenčnim nukleotidnim zaporedjem. Surovi podatki pridobljeni z NGS analizo so podani v datoteki VCF (ang. variant call format), kjer je v tabeli potencialnih različic oziroma kandidatnih genotipov v spremenljivki Filter pogosto uporabljena oznaka PASS za različice oziroma genotipe za katere je klasifikator nevronske mreže podal višjo verjetnost nereferenčnega klica genotipa kot za referenco, tj. zanesljiv klic različice. V magistrskem delu želimo s primerjavo števila klicanih različic in PASS različic med obstoječim in nadgrajenim pristopom pokazati pomembnost posodobitev programskih orodij.
Metode: V empiričnem delu smo implementirali avtomatiziran pristop k analizi podatkov DNA sekvenciranja, ki je nadgradnja obstoječega protokola analize, ki je na razpolago na aparatu Illumina Miseq. V našem nadgrajenem protokolu smo namesto modula GATK Variant Caller iz različice v1.6. obstoječega orodja na aparatu Illumina MiSeq uporabili modul Haplotype Caller pridobljenega iz programskega paketa GATK v3.8. Haplotype Caller je natančnejši, saj zavrne podatke o poravnavi okoli položaja, kjer se sumi na različico in ponovno prebere odčitke v tej regiji. Prav tako smo nadgradili algoritem poravnave nukleotidnih zaporedij iz različice 0.7.9 v obstoječem protokolu na 0.7.12, ki nam z nadgradnjo omogoča HLA tipizacijo. Protokol smo nadgradili tudi s predhodnim obrezovanjem tehničnih nukleotidnih zaporedij. Na koncu smo analizo števila klicanih različic in PASS različic med obema pristopoma ovrednotili v programskem okolju R z Wilcoxon-ovim statističnim testom.
Rezultati: Rezultati Wilcoxon-ovega testa so pokazali močno statistično značilno razliko med odkritim številom klicanih različic in PASS različic med nadgrajenim in obstoječim pristopom, pri čemer je nadgrajen pristop v povprečju odkril 26-krat več klicanih različic in 33 krat več PASS različic, od tega 5 pozitivnih PASS različic pomembnih za diagnozo od 12, kar pomeni 41,7 %.
Diskusija: Ugotovili smo, da je nadgrajen tekoči trak ukazov za analizo nukleotidnega zaporedja DNA učinkovitejši, saj odkrije več klicanih in PASS različic. Keywords: NGS, bioinformatika, sekvenciranje, Illumina MiSeq Published in DKUM: 21.09.2020; Views: 1484; Downloads: 263
Full text (7,38 MB) |
7. Primerjava pristopov edgeR in voom za analizo diferencialnega izražanja genov na podlagi podatkov sekvenciranja transkriptomaLara Bezjak, 2019, master's thesis Abstract: Izhodišče: Z razvojem visoko zmogljivih tehnologij sekvenciranja, ki so omogočile pridobitev velike količine podatkov iz bioloških vzorcev, je hitro naraslo tudi število programskih orodij za urejanje teh podatkov, vendar pa trenutno še ni soglasja o najprimernejšem postopku ali metodi za identifikacijo različno izraženih genov s tehnologijo sekvenciranja naslednje generacije (RNA-seq). Namen naloge je bil analizirati dva pristopa za analizo RNA-seq podatkov in njune rezultate validirati z zlatim standardom.
Metode: V nalogi smo uporabili dva pristopa, edgeR (Robinson, et al., 2010) in limma (Ritchie, et al., 2015) -voom (Law, et al., 2014), ter njune rezultate preverili z metodo RT-qPCR. Z RT-qPCR smo preverili štiri gene, ki so imeli izračunane nasprotujoče si log2FC in p-vrednosti. Na koncu smo zbrane rezultate vseh treh metod analizirali s programskim orodjem SPSS.
Rezultati: Rezultati Spearmanovega testa korelacije so pokazali močno korelacijo med izračunanimi log2FC in p-vrednostmi obeh pristopov, vendar je Wilcoxonov test pokazal, da se log2FC in p-vrednosti kljub temu statistično značilno razlikujejo glede na to, katero metodo smo uporabili. Tri gene, ki so se po metodah edgeR in voom najbolj razlikovali, smo analizirali z RT-qPCR in ugotovili, da dobljeni rezultati qRT-PCR bolj sovpadajo s pristopom voom kot z edgeR, kar je potrdil tudi Spearmanov test korelacije in Wilcoxonov test.
Diskusija: Iz rezultatov smo zaključili, da je pristop voom primernejši, saj daje zanesljivejše rezultate kot edgeR kljub temu da smo imeli zelo majhen vzorec (3 posameznike za vsako skupino). Keywords: RNA sekvenciranje, transkriptomika, R, RT-qPCR, bioinformatika Published in DKUM: 11.11.2019; Views: 1464; Downloads: 226
Full text (1,59 MB) |
8. |
9. |
10. Analiza biomedicinskih podatkov na primeru meritev fizične aktivnosti in delovne obremenitve medicinskih sesterNino Fijačko, 2013, master's thesis Abstract: V magistrski nalogi smo s pomočjo pedometrov raziskali fizično aktivnost in delovno obremenitev medicinskih sester na Oddelku za anesteziologijo, intenzivno terapijo in terapijo bolečin v Univerzitetnem kliničnem centru Maribor, natančneje na Oddelku za perioperativno intenzivno terapijo. Sodelovalo je 20 medicinskih sester, ki so v različnih izmenah nosile pedometre. Pedometer nam je za vsako medicinsko sestro posebej posredoval podatke o njenem aktivnem obdobju v izmeni, število korakov in kilometrov ter število porabljenih kalorij. Pridobljene podatke smo analizirali s programskim jezikom R in ugotovili, da medicinska sestra v 12-urni izmeni opravi v povprečju 9006 korakov, kar znaša od 6 do 7 kilometrov in porabi 226,3 kalorij. Rezultate smo primerjali s tujimi študijami, narejenimi na področju zdravstvene nege, in ugotovili podobnost med rezultati. Slednje navajajo, da medicinske sestre opravijo v povprečju od 6 do 8 kilometrov v 12-urnem delovniku. V obdobju celotne študije lahko vidimo korelacijo med naraščanjem in padanjem povprečnega števila narejenih kilometrov zaradi povečane oz. zmanjšane fizične aktivnosti in delovne obremenitve medicinske sestre, ki nastane zaradi večjega oz. manjšega števila pacientov. Prikazali smo tudi, da je delovna obremenitev medicinske sestre spremenljiv podatek, na katerega vplivajo številni različni dejavniki. Pokazali smo, da lahko medicinske sestre same najbolj vplivajo na dejavnik racionalne uporabe korakov. Iz pridobljenih podatkov lahko namreč sklepamo, da pri daljši delovni dobi naraste racionalnost izrabe korakov medicinske sestre (p = 0,049). Na podlagi velike količine fizične aktivnosti in delovne obremenitve (srednje hitra hoja, najvišje kategorizirani bolniki itd.) smo ocenili, da medicinske sestre na Oddelku za perioperativno intenzivno terapijo opravljajo poleg intelektualnega tudi fizični poklic. Keywords: fizična aktivnost, delovna obremenitev, bioinformatika, zdravstvena nega, pedometer Published in DKUM: 24.01.2014; Views: 2474; Downloads: 378
Full text (2,43 MB) |