1. Pomanjkljivi testni primeri v informacijskih rešitvah : magistrsko deloAna Plečko, 2023, master's thesis Abstract: V magistrskem delu smo se osredotočili na pregled pomena in definicije pomanjkljivih testnih primerov. Pregledali smo aktualno literaturo in prepoznali najpogostejše tipe pomanjkljivih testnih primerov, ki se pojavijo v testni kodi. S pomočjo aktualnih digitalnih knjižnic smo opisali in analizirali najpogosteje uporabljena in največkrat omenjena orodja, ki omogočajo prepoznavo pomanjkljivih testnih primerov. Ta smo medsebojno primerjali in opisali njihove glavne funkcionalnosti. V nadaljevanju smo iz celotnega nabora izbrali tri orodja in jih uporabili na izbranem testnem projektu. Za testni projekt smo izbrali Apache Hadoop Common, ki je implementiran v programskem jeziku Java in za testiranje uporablja orodje JUnit, tako kot izbrana orodja. Rezultate, ki smo jih dobili pri zagonu orodij, smo medsebojno primerjali in analizirali večja odstopanja.
Cilji magistrskega dela so bili naslednji: prepoznava pomanjkljivih testnih primerov in njihovih najpogostejših tipov, pregled orodij, ki jih lahko prepoznajo, uporaba izbranih orodij na javanskem projektu, beleženje rezultatov ter primerjava natančnosti in analize, ki jih je zabeležilo vsako orodje. Keywords: pomanjkljivi testni primeri, orodja za prepoznavo pomanjkljivih testnih primerov, Java, JUnit, Apache Hadoop Published in DKUM: 13.10.2023; Views: 350; Downloads: 57
Full text (3,45 MB) |
2. Vzpostavitev ekosistema Hadoop : diplomsko deloMitja Cesar, 2023, undergraduate thesis Abstract: V tej diplomski nalogi smo raziskali ogrodje Hadoop, ki s svojimi komponentami tvori celovito rešitev za hranjenje in analiziranje velikih podatkov. V diplomski nalogi najprej predstavimo ogrodje in njegove glavne oziroma najbolj uporabljene komponente, kot so HDFS, MapReduce in YARN. Sledi primer vzpostavitve ogrodja na Linux distribuciji Ubuntu, ter primeri uporabe, ki podajajo smernice za shranjevanje in analiziranje različnih vrst podatkov s Hadoop. Keywords: Hadoop, vele podatki, porazdeljen datotečni sistem, shranjevanje in analiza podatkov Published in DKUM: 05.10.2023; Views: 418; Downloads: 27
Full text (2,32 MB) |
3. Analiza uporabe in postavitve podatkovnega jezera : magistrsko deloMarcel Koren, 2021, master's thesis Abstract: Velepodatki in podatkovna jezera sta pojma, ki jih v zadnjih letih vedno pogosteje uporabljamo v povezavi s porastom količine ustvarjenih podatkov. V magistrskem delu predstavljamo lastnosti podatkovnih jezer, čemu so namenjena, kako jih lahko vzpostavimo ter kako so povezana z velepodatki. Podrobno opišemo odprtokodno rešitev Apache Hadoop in oblačno rešitev Microsoft Azure Data Lake. Pri tem smo spoznali tudi orodja, ki jih rešitvi ponujata, med katerimi sta pomembnejši Apache Spark in Azure Databricks. V nadaljevanju predstavljamo, kako ju vzpostavimo ter izvedemo eksperiment, kjer na podlagi hitrosti izvajanja in stroškov spoznamo njune prednosti in slabosti. Keywords: velepodatki, podatkovna jezera, Hadoop, Spark, Azure Data Lake Published in DKUM: 16.12.2021; Views: 1204; Downloads: 132
Full text (2,31 MB) |
4. Izdelava programske rešitve za izvajanje bibliometričnih raziskav in gradnjo tezavrov iz velikih količin bibliometričnih podatkov : diplomsko deloBoris Vezenšek, 2019, undergraduate thesis Abstract: V diplomskem delu je obravnavana bibliometrija in bibliometrične analize, izvedene s pomočjo izdelane programske rešitve. Opisane so tehnologije, uporabljene za rešitev našega problema. Tukaj gre predvsem za delovanje Hadoopovega porazdeljenega datotečnega sistema HDFS in modela MapReduce ter sistema Apache Spark. Opisani sta tudi rešitvi Analysis Services Tabular in Power BI. Na koncu so na izbranih primerih predstavljeni rezultati različnih bibliometričnih analiz v orodju Power BI, ki se napaja iz podatkovnega modela, implementiranega v tem diplomskem delu. Rezultati so prikazani v različni obliki – z vizualizacijami, primernimi za takšno vrsto podatkov. Keywords: bibliometrija, Hadoop, HDFS, Microsoft Academic Graph, podatki CORE, porazdeljena obdelava, Spark, velepodatki Published in DKUM: 22.11.2019; Views: 1058; Downloads: 72
Full text (1,93 MB) |
5. Procesiranje finančnih transakcij s programskim ogrodjem HadoopDavid Pandel, 2019, master's thesis Abstract: V okviru magistrskega dela je bila izdelana aplikacija, ki omogoča paralelno procesiranje masovnih kartičnih transakcij, t.i. avtorizacij. Programska rešitev temelji na odprtokodnem ogrodju Apache Hadoop, ki je namenjeno obdelovanju velikih količin podatkov (angl. big data). S pristopom Hadoop razbijemo vhodne podatke na več manjših delov, ki se paralelno procesirajo. Hadoop je sestavljen iz dveh glavnih komponent. MapReduce vhodni niz podatkov razdeli na med seboj neodvisne dele, ki se obdelajo paralelno. Datotečni sistem HDFS (angl. Hadoop distributed file system) je bil razvit v programskem jeziku Java in je implementiran za zagotavljanje prilagodljivega in zanesljivega shranjevanja podatkov na več med seboj povezanih računalnikih (angl. clusters of commodity servers). Glavna prednost uporabe Hadoopa je v porazdeljenem sistemu, sestavljenem iz več manj zmogljivih računalnikov in ne le enega zelo zmogljivega. Računalniki se lahko nahajajo na različnih lokacijah, zato ne potrebujemo dodatnega redundantnega sistema, ki služi za samo vzpostavitev sistema v primeru naravne katastrofe. Keywords: Hadoop, HDFS, MapReduce, finančna avtorizacija, ISO8583 Published in DKUM: 27.03.2019; Views: 1113; Downloads: 200
Full text (19,34 MB) |
6. PREDSTAVITEV IN UPORABA SISTEMA HADOOP NA WINDOWS SERVER 2012 R2Sašo Korpič, 2016, undergraduate thesis Abstract: V diplomskem delu je predstavljena postavitev strojne in programske opreme za testiranje generiaranja ter sortiranja podatkov treh različnih velikosti.
Za strojno opremo smo uporabili strežniški računalnik HP ProLiant DL360 G6. Za glavno programsko opremo pa smo uporabili Windows Server 2012 R2 ter Hadoop verzijo 2.6.4. Na podlagi testiranja smo prišli do rezultatov in sklepa, da se s povečevanjem količine podatkov za sortiranje na enem serverskem računalniku povečuje tudi čas sortiranja podatkov glede na manjše količine podatkov, če bi jih sortirali v enaki količini zapovrstjo. Keywords: Hadoop, Windows Server 2012 R2, TeraSort Published in DKUM: 27.10.2016; Views: 1377; Downloads: 97
Full text (8,12 MB) |
7. |
8. PORAZDELJENA POMENSKA ANALIZA DOKUMENTOV V PROGRAMSKEM OGRODJU APACHE HADOOPDavid Starina, 2016, undergraduate thesis Abstract: V diplomskem delu obravnavamo porazdeljeno pomensko analizo dokumentov v programskem ogrodju Apache Hadoop. Opišemo sestavo in delovanje Hadoopa, predvsem porazdeljenega datotečnega sistema HDFS in pogajalca za vire YARN. Predstavimo različne metode za pomensko analizo besedil, osredotočimo se na linearno Dirichletovo razporeditev (LDA) in podamo različne metrike za ugotavljanje podobnosti med vektorji. Predstavimo implementacijo rešitve za iskanje podobnih dokumentov s pomočjo programske knjižnice Apache Mahout in razpravljamo o primerih z LDA-jem generiranih tem. Predstavimo rezultate meritev na porazdeljeni in ne-porazdeljeni različici in predstavimo nekaj predlogov za hitrejšo analizo. Keywords: pomenska analiza, porazdeljena obdelava, Hadoop, linearna Dirichletova razporeditev, procesiranje naravnega jezika Published in DKUM: 08.09.2016; Views: 1482; Downloads: 172
Full text (1,33 MB) |
9. COMPARISON OF MYSQL, NEO4J AND APACHE HIVE DATABASE MANAGEMENT SYSTEMSMatjaž Moser, 2016, master's thesis/paper Abstract: In this work a comparison of three different database management systems (DBMS) is presented. In general a relational data model with a graph data model is compared. The three systems used are MySQL, Neo4j and Apache Hive. Neo4j is a member of the NoSQL database family and is a well-known graph database. The relational databases used in this work are MySQL and Apache Hive. The latter is not a classic relational model but since it is modelled as such it can be considered relational. MySQL is a well-known solution that has been on the market for several years now and is a standard solution for many data problems.
Within this work a detailed comparison of all three systems from different aspects of usage is made, both from our own experience as well as from preliminary research from other authors and sources. Additionally some practical information from our dataset with some simple mining techniques is extracted and the result of our work is visualised in an interactive web side using modern approaches to data visualisation. Keywords: Neo4j, MySQL, Apache Hadoop/Hive, database comparison, data visualisation Published in DKUM: 13.05.2016; Views: 2573; Downloads: 195
Full text (1,02 MB) |
10. POSLOVNI POTENCIAL KONCEPTA BIG DATAPatricija Gavez, 2013, undergraduate thesis Abstract: Informacije predstavljajo neotipljivo premoženje organizacij in so njihova pomembna konkurenčna prednost. Za najboljši izkoristek informacij se organizacije posložujejo poslovnega obveščanja, katerega glavna komponenta so podatkovne baze. Najbolj razširjene podatkovne baze so relacijske baze podatkov, pri katerih so podatki shranjeni v logično povezanih tabelah.
Trend povečane rasti količine podatkov je povzročil, da relacijske baze ne uspejo zadovoljiti potreb poslovnega obveščanja. Pojavil se je koncept Big Data in z njim povezane tehnologije za zajem, shranjevanje, obdelavo in izkoristek masovnih količin podatkov.
Big Data predstavljajo veliko poslovno priložnost tako za organizacije, ki se jih bodo posluževale pri poslovnem obveščanju, kot tudi za ponudnike programske opreme. Orodje Apache Hadoop, ki vsebuje dve pomembnejši komponenti – MapReduce in HDFS, je le ena izmed prepoznavnejših programskih rešitev na področju koncepta Big Data. Pomembna storitev, ki spada k velikim podatkovnim bazam je tudi računalništvo v oblaku, saj zadovoljuje zahteve s strani infrastrukture, prilagodljivosti storitve pa tudi varstva podatkov. Keywords: Big Data, tehnologije za obvladovanje Big Data, Apache Hadoop, MapReduce, HDFS, poslovno obveščanje, podatkovne baze, relacijske podatkovne baze, integracija podatkov, računalništvo v oblaku Published in DKUM: 04.11.2013; Views: 2522; Downloads: 500
Full text (974,42 KB) |