1.
Primerjava učinkovitosti izvedbe in ponovljivosti rezultatov bioinformatskih analiz RNA sekvenciranja med različnimi posodobitvami programskega okolja RVeronika Dolšak, 2023, master's thesis
Abstract: Izhodišče: Razvoj tehnologije sekvenciranja naslednje generacije je močno pospešil hitrost pridobivanja velike količine podatkov sekvenciranja, ki potrebujejo nadaljnje bioinformatske analize, posledično pa je hitro naraslo tudi število programskih orodij za urejanje teh podatkov. Pogosta izbira za analizo podatkov RNA-sekvenciranja (RNA-seq) za odkrivanje genov in poti diferencialnega izražanja genov z zagotavljanjem popolne analize so programski paketi Bioconductor, namenjeni za delo v programskem okolju R. Različice programskega okolja R se pogosto nadgrajujejo, zaradi česar se v praksi opazi različno učinkovitost, kar lahko vpliva na primerljivost rezultatov analiz RNA-seq, analiziranih z več različicami programskega okolja R.
Metode: Surove podatke RNA-seq smo analizirali z uporabo programskih orodij Bioconductor: Rsubread, edgeR in limma, in to v več različicah programskega okolja R: R 3.5, R 3.6, R 4.0, R 4.1 in R 4.2.
Rezultati: Rezultati primerjav učinkovitosti poravnave s programskim orodjem Rsubred kažejo statistično pomembne razlike med primerjavami R 4.2 z ostalimi različicami programskega okolja R, prav tako se kažejo statistično pomembne razlike v rezultatih primerjav analize diferencialnega izražanja genov, pridobljenih z istim cevovodom ukazov med različico R 4.2 in ostalimi različicami R ter med različico R 3.5 in ostalimi različicami R.
Diskusija: Iz rezultatov smo ugotovili, da je treba izvajati analizo podatkov RNA-seq z najnovejšo posodobljeno različico programskega okolja R in najnovejšimi različicami programskih orodij Bioconduktor, kar je še posebnega pomena, kadar izvajamo metaanalizo podatkov RNA-seq iz različnih neodvisnih študij.
Keywords: RNA-sekvenciranje, diferencialno izražanja genov, R, bioinformatika
Published in DKUM: 13.07.2023; Views: 373; Downloads: 55
Full text (2,09 MB)