| | SLO | ENG | Cookies and privacy

Bigger font | Smaller font

Search the digital library catalog Help

Query: search in
search in
search in
search in
* old and bologna study programme

Options:
  Reset


1 - 2 / 2
First pagePrevious page1Next pageLast page
1.
Hibridno priporočanje vrstilcev univerzalne decimalne klasifikacije : doktorska disertacija
Mladen Borovič, 2023, doctoral dissertation

Abstract: V doktorski disertaciji predlagamo hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije (UDK) za elektronske dokumente, ne glede na globino hierarhije UDK. Razvit hibridni pristop priporočanja vrstilcev UDK temelji na metodah vsebinskega filtriranja in uporablja strukturirane metapodatke v slovenskem jeziku za klasifikacijo področja znanosti in priporočanje ustreznih vrstilcev. Ker se dokumenti pogosto nanašajo na več področij znanosti, mora biti pristop sposoben identificirati interdisciplinarnost in vrniti več ustreznih vrstilcev UDK. Predlagani hibridni pristop uporablja kaskadno hibridizacijo in je razdeljen na dva kaskadna koraka. Najprej z rangirno funkcijo BM25 zagotovimo začetni seznam vrstilcev UDK. V prvem kaskadnem koraku začetni seznam vrstilcev UDK preuredimo s seznamom, ki je rezultat večznačnega klasifikatorja. Večznačni klasifikator temelji na globoki nevronski mreži BERT in je prilagojen na hierarhično topologijo UDK. V drugem kaskadnem koraku s pomočjo seznama najbolj pogostih vrstilcev UDK v organizaciji, iz katere izvira dokument, preuredimo seznam iz prvega koraka. Za kaskadno hibridizacijo se izvedejo postopki naknadne obdelave, ki preuredijo sezname priporočil glede na vrhnje področje in glede na specifičnost, omogočajo pa tudi rezanje seznama. Disertacija vključuje vrednotenje na množici zaključnih del v slovenskem jeziku, ki so del repozitorijev slovenskih univerz in že imajo ročno določene vrstilce UDK s strani knjižničarjev. Na testni množici dokumentov s predlaganano metodo po metriki HR@K dosežemo povprečne vrednosti 0,574 (K = 1), 0,869 (K = 3) in 0,892 (K = 5). Po metriki NDCG@K dosežemo povprečne vrednosti 0,993 (K = 1), 0,921 (K = 3) in 0,916 (K = 5), po metrikah MRR in MAP pa povprečne vrednosti vrednosti 0,782 (MRR) in 0,785 (MAP). V primerjavi z obstoječimi pristopi pokažemo, da uporaba predlaganega pristopa vodi v statistično značilne izboljšave.
Keywords: hibridni priporočilni sistemi, univerzalna decimalna klasifikacija, vsebinsko filtriranje, globoke nevronske mreže, obdelava naravnega jezika
Published in DKUM: 04.01.2024; Views: 178; Downloads: 32
.pdf Full text (1,86 MB)

2.
Razvoj metodologije za avtomatično klasifikacijo elektronskih publikacij v univerzalno decimalno klasifikacijo – udk24112018
Matjaž Kragelj, 2019, doctoral dissertation

Abstract: Čeprav so znanstveni in strokovni članki večinoma bibliografsko obdelani in imajo zapis v knjižničnem katalogu COBIB, ter s tem definiranega enega ali več vrstilcev iz sistema Univerzalne decimalne klasifikacije (UDK), je večina člankov, dostopnih prek portala Digitalne knjižnice Slovenije, predvsem s področja kulture (starejši članki iz revij in časopisov), ki takšnega zapisa nimajo. Na spletnem mestu Digitalne knjižnice Slovenije je mogoče preiskovanje dokumentov zgolj po polnem besedilu. To je trenutno najboljše orodje za preiskovanje starejših besedil, a uporaba in preiskovanja publikacij na tak način, zaradi pomanjkljivosti (slabša kvaliteta razpoznave besedila v časopisih in revijah starejšega tipa, uporaba stare slovenščine, itd.) in prevelikega števila vrnjenih zadetkov pri iskanju, ne nudi sodobne uporabniške izkušnje in uporabniku otežuje delo. Osnovni problem, ki ga naslavljamo v disertaciji je pomoč pri bibliografski obdelavi besedil, ki je še vedno v rokah človeških ekspertov. Izhajamo iz teze, da je s pomočjo metod strojnega učenja možno avtomatsko klasificirati besedila v ustrezen UDK vrstilec in s tem podpreti človeka pri bibliografski obdelavi zapisov. V ta namen smo po pristopu načrtovanja in razvoja razvili klasifikacijski model, ki smo ga uporabili za klasificiranje starih besedil, ki so bila doslej klasificirana večinoma zgolj posredno, preko klasifikacije celotne revije oz. časopisa, kot na primer "Časopisi. Tisk. Novinarstvo". V disertaciji smo razvili klasifikacijski model s pomočjo metod strojnega učenja, s katerimi smo uspeli avtomatsko klasificirati kakršnokoli besedilo s pomočjo Univerzalne decimalne klasifikacije. Med tehnikami strojnega učenja smo se poslužili nenadzorovanega in nadzorovanega učenja. V prvem koraku smo nad manjšo množico podatkov (900 člankov) nenadzorovano učenje uporabili za preverjanje sorodnosti med dodeljenimi UDK vrstilci s strani bibliotekarjev in izgrajenimi gručami s strani algoritma. V drugem koraku smo nad celotnim korpusom znanstvenega časopisja Digitalne knjižnice Slovenije (več kot 70.000 znanstvenih besedil) razvili klasifikacijske modele, kjer je bilo razmerje učne in testne množice je bilo 80/20 odstotkov. Ko smo potrdili uspešnost klasifikacijskih modelov nad znanstvenimi besedili, smo jih uporabili za klasifikacijo več kot 200.000 starejših besedil. Uporabili smo Naivni Bayesov klasifikator, Metodo podpornih vektorjev, Večslojni perceptron, Logistično regresijo in algoritem k najbližjih sosedov. Ustreznost klasifikacije starih besedil smo preverili s človeškimi eksperti – bibliotekarji. Potrdili smo domnevo, da lahko s pomočjo znanstvenih in strokovnih člankov, klasificiranih v UDK, v vsaj 80% primerov ponudimo avtomatsko določene UDK vrstilce za starejše gradivo, ki ni bibliotekarsko obdelano. Poudariti velja, da gre pri tem delu za človeško odločitev, testiranje s človeškimi eksperti, za oceno in presojo, ki lahko variira od odločevalca do odločevalca. Poleg oplemenitenja starejših besedil iz osemnajstega, devetnajstega in prve polovice dvajsetega stoletja s vsebinskimi oznakami UDK vrstilcev, ima raziskava praktično moč v vsakodnevni rabi. Z gledišča podpore avtomatske klasifikacije publikacij pri vsakodnevnem delu bibliotekarjev, vidimo moč implementacije raziskave v informacijski sistem, ki je bibliotekarju sposoben v realnem času ponuditi izračunane predloge za določitev primernih klasifikatorjev publikacije, ki jo obdeluje. Bibliotekar lahko pridobi s strani stroja "drugo mnenje" pri procesu dodeljevanja UDK vrstilcev publikaciji, ki jo obdeluje. Hkrati je metodologija lahko uporabljena na različnih področjih in podatkovnih bazah ter klasifikacijskih sistemih, ne zgolj za dodeljevanje UDK vrstilcev.
Keywords: Umetna inteligenca, strojno učenje, podatkovno rudarjenje, Univerzalna decimalna klasifikacija, klasifikacija besedil
Published in DKUM: 03.02.2021; Views: 1232; Downloads: 101
.pdf Full text (4,35 MB)

Search done in 0.07 sec.
Back to top
Logos of partners University of Maribor University of Ljubljana University of Primorska University of Nova Gorica