Deduplication of metadata : magistrsko delo

Chuchurski, Martin

| | SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Prva stran > Izpis gradiva

Izpis gradiva

Naslov:	Deduplication of metadata : magistrsko delo
Avtorji:	ID Chuchurski, Martin (Avtor) ID Ojsteršek, Milan (Mentor) Več o mentorju...
Datoteke:	UN_Chuchurski_Martin_2019.pdf (848,73 KB) MD5: 5365D18AA6A654AF01F45C6416209ACA PID: 20.500.12556/dkum/2bd91740-5725-4e37-9e99-32638e2315a2
Jezik:	Angleški jezik
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Opis:	Duplicates are redundant data that increases the storage space needed as well as the serving cost. They also have a big impact on the search result quality of the database. Therefore, detecting and eliminating redundant data is crucial in restoring and maintaining the quality of the data stored as well as the database itself. Different methods have been used to detect duplicates. The most widely used are pattern matching algorithms, more precisely phonetic string matching algorithms. There is a wide variety of algorithms to choose from and we opted for the algorithms that best suited our needs. Jaccard, Jaro, Jaro-Winkler and Levenshtein distance algorithms were used in the development of our deduplication application. They were joined together to create a new hybrid approach for detecting duplicates in a metadata database. In a real database, the application showed promising results while maintaining relatively fast speeds and fairly small memory consumption.
Ključne besede:	deduplikacija, metapodatki, besedilne metrike podobnosti, duplikat
Kraj izida:	Maribor
Kraj izvedbe:	Maribor
Založnik:	[M. Chuchurski]
Leto izida:	2019
Št. strani:	XI, 29 f.
PID:	20.500.12556/DKUM-75059
UDK:	004.93\'1.021:004.6(043.2)
COBISS.SI-ID:	22829590
NUK URN:	URN:SI:UM:DK:OMJCUOBS
Datum objave v DKUM:	08.11.2019
Število ogledov:	760
Število prenosov:	68
Metapodatki:
Področja:	KTFMB - FERI
:	CHUCHURSKI, Martin, 2019, Deduplication of metadata : magistrsko delo [na spletu]. Diplomsko delo. Maribor : M. Chuchurski. [Dostopano 21 januar 2025]. Pridobljeno s: https://dk.um.si/IzpisGradiva.php?lang=slv&id=75059 Kopiraj citat

Skupna ocena:	0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 (0 glasov)
Vaša ocena:	Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
Objavi na:

Podobna dela iz repozitorija:

Podobna dela iz ostalih repozitorijev:

Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Licence

Licenca:	CC BY-NC-ND 4.0, Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by-nc-nd/4.0/deed.sl
Opis:	Najbolj omejujoča licenca Creative Commons. Uporabniki lahko prenesejo in delijo delo v nekomercialne namene in ga ne smejo uporabiti za nobene druge namene.
Začetek licenciranja:	18.09.2019

Sekundarni jezik

Jezik:	Slovenski jezik
Naslov:	Deduplikacija metapodatkov
Opis:	Duplikati so odvečni podatki, ki povečajo prostor, potreben za shranjevanje, kakor tudi stroške storitve. Prav tako imajo velik vpliv na kakovost rezultatov iskanja ustreznih rezultatov poizvedb v podatkovnih zbirkah, zato je odkrivanje in odpravljanje odvečnih podatkov ključnega pomena pri obnavljanju in vzdrževanju kakovosti shranjenih podatkov in same podatkovne zbirke. Za odkrivanje duplikatov se uporabljajo različne metode. Najpogosteje se uporabljajo algoritmi za ujemanje vzorcev, natančneje algoritmi za ujemanje nizov znakov. Na izbiro je veliko različnih algoritmov za odkrivanje duplikatov. Mi smo uporabili besedilne metrike podobnosti. Jaccardova, Jarova, Jaro-Winklerjeva in Levenshteinova razdalja so bile uporabljene v naši praktični rešitvi. Ustvarili smo nov hibridni pristop za odkrivanje duplikatov v podatkovni zbirki metapodatkov, ki odkrije večino duplikatov, porabi relativno malo procesorskega časa in pomnilnika.
Ključne besede:	deduplication, metadata, text similarity metrics, duplicate

Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)

0 - 0 / 0

Ni komentarjev!

Nazaj