| | SLO | ENG | Cookies and privacy

Bigger font | Smaller font

Show document Help

Title:Razvoj metodologije za avtomatično klasifikacijo elektronskih publikacij v univerzalno decimalno klasifikacijo – udk24112018
Authors:ID Kragelj, Matjaž (Author)
ID Kljajić Borštnar, Mirjana (Mentor) More about this mentor... New window
Files:.pdf DOK_Kragelj_Matjaz_2021.pdf (4,35 MB)
MD5: E10A41E46AE99FEA18F394EDCB141287
PID: 20.500.12556/dkum/2ba7976b-a68b-4f6b-96cf-a1e910b9bd48
 
Language:Slovenian
Work type:Doctoral dissertation
Typology:2.08 - Doctoral Dissertation
Organization:FOV - Faculty of Organizational Sciences in Kranj
Abstract:Čeprav so znanstveni in strokovni članki večinoma bibliografsko obdelani in imajo zapis v knjižničnem katalogu COBIB, ter s tem definiranega enega ali več vrstilcev iz sistema Univerzalne decimalne klasifikacije (UDK), je večina člankov, dostopnih prek portala Digitalne knjižnice Slovenije, predvsem s področja kulture (starejši članki iz revij in časopisov), ki takšnega zapisa nimajo. Na spletnem mestu Digitalne knjižnice Slovenije je mogoče preiskovanje dokumentov zgolj po polnem besedilu. To je trenutno najboljše orodje za preiskovanje starejših besedil, a uporaba in preiskovanja publikacij na tak način, zaradi pomanjkljivosti (slabša kvaliteta razpoznave besedila v časopisih in revijah starejšega tipa, uporaba stare slovenščine, itd.) in prevelikega števila vrnjenih zadetkov pri iskanju, ne nudi sodobne uporabniške izkušnje in uporabniku otežuje delo. Osnovni problem, ki ga naslavljamo v disertaciji je pomoč pri bibliografski obdelavi besedil, ki je še vedno v rokah človeških ekspertov. Izhajamo iz teze, da je s pomočjo metod strojnega učenja možno avtomatsko klasificirati besedila v ustrezen UDK vrstilec in s tem podpreti človeka pri bibliografski obdelavi zapisov. V ta namen smo po pristopu načrtovanja in razvoja razvili klasifikacijski model, ki smo ga uporabili za klasificiranje starih besedil, ki so bila doslej klasificirana večinoma zgolj posredno, preko klasifikacije celotne revije oz. časopisa, kot na primer "Časopisi. Tisk. Novinarstvo". V disertaciji smo razvili klasifikacijski model s pomočjo metod strojnega učenja, s katerimi smo uspeli avtomatsko klasificirati kakršnokoli besedilo s pomočjo Univerzalne decimalne klasifikacije. Med tehnikami strojnega učenja smo se poslužili nenadzorovanega in nadzorovanega učenja. V prvem koraku smo nad manjšo množico podatkov (900 člankov) nenadzorovano učenje uporabili za preverjanje sorodnosti med dodeljenimi UDK vrstilci s strani bibliotekarjev in izgrajenimi gručami s strani algoritma. V drugem koraku smo nad celotnim korpusom znanstvenega časopisja Digitalne knjižnice Slovenije (več kot 70.000 znanstvenih besedil) razvili klasifikacijske modele, kjer je bilo razmerje učne in testne množice je bilo 80/20 odstotkov. Ko smo potrdili uspešnost klasifikacijskih modelov nad znanstvenimi besedili, smo jih uporabili za klasifikacijo več kot 200.000 starejših besedil. Uporabili smo Naivni Bayesov klasifikator, Metodo podpornih vektorjev, Večslojni perceptron, Logistično regresijo in algoritem k najbližjih sosedov. Ustreznost klasifikacije starih besedil smo preverili s človeškimi eksperti – bibliotekarji. Potrdili smo domnevo, da lahko s pomočjo znanstvenih in strokovnih člankov, klasificiranih v UDK, v vsaj 80% primerov ponudimo avtomatsko določene UDK vrstilce za starejše gradivo, ki ni bibliotekarsko obdelano. Poudariti velja, da gre pri tem delu za človeško odločitev, testiranje s človeškimi eksperti, za oceno in presojo, ki lahko variira od odločevalca do odločevalca. Poleg oplemenitenja starejših besedil iz osemnajstega, devetnajstega in prve polovice dvajsetega stoletja s vsebinskimi oznakami UDK vrstilcev, ima raziskava praktično moč v vsakodnevni rabi. Z gledišča podpore avtomatske klasifikacije publikacij pri vsakodnevnem delu bibliotekarjev, vidimo moč implementacije raziskave v informacijski sistem, ki je bibliotekarju sposoben v realnem času ponuditi izračunane predloge za določitev primernih klasifikatorjev publikacije, ki jo obdeluje. Bibliotekar lahko pridobi s strani stroja "drugo mnenje" pri procesu dodeljevanja UDK vrstilcev publikaciji, ki jo obdeluje. Hkrati je metodologija lahko uporabljena na različnih področjih in podatkovnih bazah ter klasifikacijskih sistemih, ne zgolj za dodeljevanje UDK vrstilcev.
Keywords:Umetna inteligenca, strojno učenje, podatkovno rudarjenje, Univerzalna decimalna klasifikacija, klasifikacija besedil
Place of publishing:Maribor
Year of publishing:2019
PID:20.500.12556/DKUM-75472 New window
COBISS.SI-ID:49890051 New window
NUK URN:URN:SI:UM:DK:RXQGYGJI
Publication date in DKUM:03.02.2021
Views:1232
Downloads:101
Metadata:XML RDF-CHPDL DC-XML DC-RDF
Categories:FOV
:
Copy citation
  
Average score:(0 votes)
Your score:Voting is allowed only for logged in users.
Share:Bookmark and Share


Hover the mouse pointer over a document title to show the abstract or click on the title to get all document metadata.

Licences

License:CC BY-NC-ND 4.0, Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International
Link:http://creativecommons.org/licenses/by-nc-nd/4.0/
Description:The most restrictive Creative Commons license. This only allows people to download and share the work for no commercial gain and for no other purposes.
Licensing start date:22.11.2019

Secondary language

Language:English
Title:Development of methodology for automatically positioning electronic publications into UDC
Abstract:Although the majority of the scientific and professional articles are catalogued and have a bibliographic record in the COBIB Library Catalogue, including one or more notations from the Universal Decimal Classification (UDC) system, most of the articles available through the web portal of the Digital Library of Slovenia, which are mainly from the field of culture (older magazine and newspaper articles), usually do not have such a record. On the website of the Digital Library of Slovenia, it is possible to search web documents only via full text search. It is currently the best available tool for searching older texts, but such practice does not offer sufficient user experience, due to various deficiencies (poor quality of text recognition in old newspapers and magazines, usage of old Slovene languages, etc.) and too many returned search results. In the dissertation, we address the basic problem of assistance by bibliographic processing, which is still in the hands of human experts. We start from the thesis that the usage of machine learning methods makes it possible to classify the texts automatically into the appropriate UDC notation. Thus, the support is provided for librarians during the bibliographic processing of documents. For this purpose, following a planning and development approach, we developed a classification model that was used to classify old texts. Until now, these were mostly only indirectly classified through the classification of the entire journal, such as "Newspapers. Printing. Journalism". We developed a classification model using machine learning methods, which managed to classify any text automatically using the Universal Decimal Classification. Among the machine learning techniques, we used unsupervised and supervised machine learning. First, we used unsupervised machine learning methods over a smaller number of articles (900 articles) to test the relatedness between the UDC notations assigned by the librarians and clusters built by the algorithm. Next, we developed classification models over the entire corpus of the scientific journals available via the Digital Library of Slovenia (more than 70,000 scientific texts), where the ratio between the learning and the test set was 80/20 percent. When we confirmed the performance of classification models over scientific texts, we used them to classify more than 200,000 older texts. We used the Naive Bayes classifier, Support Vector Machine, Multilayer Perceptron, Logistic Regression, and k-nearest neighbor's algorithm. The relevance of the classification of old texts was checked by human experts - librarians. We have confirmed the assumption that in at least 80 % of cases, we can offer auto-determined UDC notations for older material that has not been bibliographically processed. It should be emphasized that this work is about human decision-making, testing with human experts, evaluation and judgment, which can vary from one decision maker to another. In addition to enriching older texts from the eighteenth, nineteenth, and first half of the twentieth centuries with the content of UDC notations, the research has practical value in everyday use. From the standpoint of supporting the automatic classification of publications in the daily work of librarians, we see the power of implementing research into an information system that is able to offer computational suggestions to a librarian in real time to determine the appropriate classifiers for the processed publication. The librarian can obtain a "second opinion" from the machine knowledge in the process of assigning UDC notations to the processed publication. At the same time, the methodology can be used in different fields, databases and classification systems, not just for assigning UDC notations.
Keywords:Artificial Intelligence, Machine Learning, Data Mining, Universal Decimal Classification, Text Classification


Comments

Leave comment

You must log in to leave a comment.

Comments (0)
0 - 0 / 0
 
There are no comments!

Back
Logos of partners University of Maribor University of Ljubljana University of Primorska University of Nova Gorica