| | SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Izpis gradiva

Naslov:Deduplication of metadata : magistrsko delo
Avtorji:ID Chuchurski, Martin (Avtor)
ID Ojsteršek, Milan (Mentor) Več o mentorju... Novo okno
Datoteke:.pdf UN_Chuchurski_Martin_2019.pdf (848,73 KB)
MD5: 5365D18AA6A654AF01F45C6416209ACA
PID: 20.500.12556/dkum/2bd91740-5725-4e37-9e99-32638e2315a2
 
Jezik:Angleški jezik
Vrsta gradiva:Diplomsko delo/naloga (mb11)
Tipologija:2.11 - Diplomsko delo
Organizacija:FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Opis:Duplicates are redundant data that increases the storage space needed as well as the serving cost. They also have a big impact on the search result quality of the database. Therefore, detecting and eliminating redundant data is crucial in restoring and maintaining the quality of the data stored as well as the database itself. Different methods have been used to detect duplicates. The most widely used are pattern matching algorithms, more precisely phonetic string matching algorithms. There is a wide variety of algorithms to choose from and we opted for the algorithms that best suited our needs. Jaccard, Jaro, Jaro-Winkler and Levenshtein distance algorithms were used in the development of our deduplication application. They were joined together to create a new hybrid approach for detecting duplicates in a metadata database. In a real database, the application showed promising results while maintaining relatively fast speeds and fairly small memory consumption.
Ključne besede:deduplikacija, metapodatki, besedilne metrike podobnosti, duplikat
Leto izida:2019
Kraj izvedbe:Maribor
Založnik:[M. Chuchurski]
Št. strani:XI, 29 f.
Izvor:Maribor
PID:20.500.12556/DKUM-75059 Novo okno
UDK:004.93\'1.021:004.6(043.2)
COBISS.SI-ID:22829590 Novo okno
NUK URN:URN:SI:UM:DK:OMJCUOBS
Datum objave v DKUM:08.11.2019
Število ogledov:432
Število prenosov:43
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
Področja:KTFMB - FERI
:
  
Skupna ocena:(0 glasov)
Vaša ocena:Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
Objavi na:AddThis
AddThis uporablja piškotke, za katere potrebujemo vaše privoljenje.
Uredi privoljenje...

Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Licence

Licenca:CC BY-NC-ND 4.0, Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by-nc-nd/4.0/deed.sl
Opis:Najbolj omejujoča licenca Creative Commons. Uporabniki lahko prenesejo in delijo delo v nekomercialne namene in ga ne smejo uporabiti za nobene druge namene.
Začetek licenciranja:18.09.2019

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Deduplikacija metapodatkov
Opis:Duplikati so odvečni podatki, ki povečajo prostor, potreben za shranjevanje, kakor tudi stroške storitve. Prav tako imajo velik vpliv na kakovost rezultatov iskanja ustreznih rezultatov poizvedb v podatkovnih zbirkah, zato je odkrivanje in odpravljanje odvečnih podatkov ključnega pomena pri obnavljanju in vzdrževanju kakovosti shranjenih podatkov in same podatkovne zbirke. Za odkrivanje duplikatov se uporabljajo različne metode. Najpogosteje se uporabljajo algoritmi za ujemanje vzorcev, natančneje algoritmi za ujemanje nizov znakov. Na izbiro je veliko različnih algoritmov za odkrivanje duplikatov. Mi smo uporabili besedilne metrike podobnosti. Jaccardova, Jarova, Jaro-Winklerjeva in Levenshteinova razdalja so bile uporabljene v naši praktični rešitvi. Ustvarili smo nov hibridni pristop za odkrivanje duplikatov v podatkovni zbirki metapodatkov, ki odkrije večino duplikatov, porabi relativno malo procesorskega časa in pomnilnika.
Ključne besede:deduplication, metadata, text similarity metrics, duplicate


Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)
0 - 0 / 0
 
Ni komentarjev!

Nazaj
Logotipi partnerjev Univerza v Mariboru Univerza v Ljubljani Univerza na Primorskem Univerza v Novi Gorici