Naslov: | Razvoj metodologije za avtomatično klasifikacijo elektronskih publikacij v univerzalno decimalno klasifikacijo – udk24112018 |
---|
Avtorji: | ID Kragelj, Matjaž (Avtor) ID Kljajić Borštnar, Mirjana (Mentor) Več o mentorju...  |
Datoteke: | DOK_Kragelj_Matjaz_2021.pdf (4,35 MB) MD5: E10A41E46AE99FEA18F394EDCB141287 PID: 20.500.12556/dkum/2ba7976b-a68b-4f6b-96cf-a1e910b9bd48
|
---|
Jezik: | Slovenski jezik |
---|
Vrsta gradiva: | Doktorsko delo/naloga |
---|
Tipologija: | 2.08 - Doktorska disertacija |
---|
Organizacija: | FOV - Fakulteta za organizacijske vede
|
---|
Opis: | Čeprav so znanstveni in strokovni članki večinoma bibliografsko obdelani in imajo zapis v knjižničnem katalogu COBIB, ter s tem definiranega enega ali več vrstilcev iz sistema Univerzalne decimalne klasifikacije (UDK), je večina člankov, dostopnih prek portala Digitalne knjižnice Slovenije, predvsem s področja kulture (starejši članki iz revij in časopisov), ki takšnega zapisa nimajo. Na spletnem mestu Digitalne knjižnice Slovenije je mogoče preiskovanje dokumentov zgolj po polnem besedilu. To je trenutno najboljše orodje za preiskovanje starejših besedil, a uporaba in preiskovanja publikacij na tak način, zaradi pomanjkljivosti (slabša kvaliteta razpoznave besedila v časopisih in revijah starejšega tipa, uporaba stare slovenščine, itd.) in prevelikega števila vrnjenih zadetkov pri iskanju, ne nudi sodobne uporabniške izkušnje in uporabniku otežuje delo. Osnovni problem, ki ga naslavljamo v disertaciji je pomoč pri bibliografski obdelavi besedil, ki je še vedno v rokah človeških ekspertov. Izhajamo iz teze, da je s pomočjo metod strojnega učenja možno avtomatsko klasificirati besedila v ustrezen UDK vrstilec in s tem podpreti človeka pri bibliografski obdelavi zapisov. V ta namen smo po pristopu načrtovanja in razvoja razvili klasifikacijski model, ki smo ga uporabili za klasificiranje starih besedil, ki so bila doslej klasificirana večinoma zgolj posredno, preko klasifikacije celotne revije oz. časopisa, kot na primer "Časopisi. Tisk. Novinarstvo".
V disertaciji smo razvili klasifikacijski model s pomočjo metod strojnega učenja, s katerimi smo uspeli avtomatsko klasificirati kakršnokoli besedilo s pomočjo Univerzalne decimalne klasifikacije. Med tehnikami strojnega učenja smo se poslužili nenadzorovanega in nadzorovanega učenja. V prvem koraku smo nad manjšo množico podatkov (900 člankov) nenadzorovano učenje uporabili za preverjanje sorodnosti med dodeljenimi UDK vrstilci s strani bibliotekarjev in izgrajenimi gručami s strani algoritma. V drugem koraku smo nad celotnim korpusom znanstvenega časopisja Digitalne knjižnice Slovenije (več kot 70.000 znanstvenih besedil) razvili klasifikacijske modele, kjer je bilo razmerje učne in testne množice je bilo 80/20 odstotkov. Ko smo potrdili uspešnost klasifikacijskih modelov nad znanstvenimi besedili, smo jih uporabili za klasifikacijo več kot 200.000 starejših besedil. Uporabili smo Naivni Bayesov klasifikator, Metodo podpornih vektorjev, Večslojni perceptron, Logistično regresijo in algoritem k najbližjih sosedov. Ustreznost klasifikacije starih besedil smo preverili s človeškimi eksperti – bibliotekarji. Potrdili smo domnevo, da lahko s pomočjo znanstvenih in strokovnih člankov, klasificiranih v UDK, v vsaj 80% primerov ponudimo avtomatsko določene UDK vrstilce za starejše gradivo, ki ni bibliotekarsko obdelano. Poudariti velja, da gre pri tem delu za človeško odločitev, testiranje s človeškimi eksperti, za oceno in presojo, ki lahko variira od odločevalca do odločevalca.
Poleg oplemenitenja starejših besedil iz osemnajstega, devetnajstega in prve polovice dvajsetega stoletja s vsebinskimi oznakami UDK vrstilcev, ima raziskava praktično moč v vsakodnevni rabi. Z gledišča podpore avtomatske klasifikacije publikacij pri vsakodnevnem delu bibliotekarjev, vidimo moč implementacije raziskave v informacijski sistem, ki je bibliotekarju sposoben v realnem času ponuditi izračunane predloge za določitev primernih klasifikatorjev publikacije, ki jo obdeluje. Bibliotekar lahko pridobi s strani stroja "drugo mnenje" pri procesu dodeljevanja UDK vrstilcev publikaciji, ki jo obdeluje. Hkrati je metodologija lahko uporabljena na različnih področjih in podatkovnih bazah ter klasifikacijskih sistemih, ne zgolj za dodeljevanje UDK vrstilcev. |
---|
Ključne besede: | Umetna inteligenca, strojno učenje, podatkovno rudarjenje, Univerzalna decimalna klasifikacija, klasifikacija besedil |
---|
Kraj izida: | Maribor |
---|
Leto izida: | 2019 |
---|
PID: | 20.500.12556/DKUM-75472  |
---|
COBISS.SI-ID: | 49890051  |
---|
NUK URN: | URN:SI:UM:DK:RXQGYGJI |
---|
Datum objave v DKUM: | 03.02.2021 |
---|
Število ogledov: | 1464 |
---|
Število prenosov: | 137 |
---|
Metapodatki: |  |
---|
Področja: | FOV
|
---|
:
|
KRAGELJ, Matjaž, 2019, Razvoj metodologije za avtomatično klasifikacijo elektronskih publikacij v univerzalno decimalno klasifikacijo – udk24112018 [na spletu]. Doktorska disertacija. Maribor. [Dostopano 23 april 2025]. Pridobljeno s: https://dk.um.si/IzpisGradiva.php?lang=slv&id=75472
Kopiraj citat |
---|
| | | Skupna ocena: | (0 glasov) |
---|
Vaša ocena: | Ocenjevanje je dovoljeno samo prijavljenim uporabnikom. |
---|
Objavi na: |  |
---|
Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše
podrobnosti ali sproži prenos. |