| | SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Izpis gradiva Pomoč

Naslov:Uporaba nevronskih jezikovnih modelov za prepoznavanje imenskih entitet iz nestrukturiranih dokumentov : diplomsko delo
Avtorji:ID Knupleš, Urban (Avtor)
ID Holobar, Aleš (Mentor) Več o mentorju... Novo okno
ID Ferme, Marko (Komentor)
Datoteke:.pdf UN_Knuples_Urban_2021.pdf (1,56 MB)
MD5: 9593ED9635CEAAFC9FED4A1724E47A91
PID: 20.500.12556/dkum/285cb4cc-b93c-40f3-a17c-bbbfb9e1f2b5
 
Jezik:Slovenski jezik
Vrsta gradiva:Diplomsko delo/naloga
Tipologija:2.11 - Diplomsko delo
Organizacija:FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Opis:Nestrukturirani dokumenti zajemajo informacije v oblikah in postavitvah, ki se lahko od enega primerka do drugega razlikujejo, kar lahko oteži in podraži nalogo pridobivanja informacij. Kot rešitev se je v zadnjih letih za razumevanje dokumentov na področju dokumentne inteligence pričela uporaba nevronskih jezikovnih modelov, usposobljenih na učnih množicah dokumentov. V diplomskem delu za pridobivanje informacij iz skeniranih trgovinskih računov uporabljamo prehodno učeni nevronski jezikovni model, zgrajen iz transformatorjev. Model je natančno učen z uporabo učne množice SROIE za izluščitev štirih kategorij, tj. imen in naslovov trgovin, datumov in skupnih cen. Za pridobivanje informacij smo uporabili prepoznavo imenskih entitet. Za primerjavo izvajamo poskuse s spreminjanem hiperparametrov modela. S spremembo nevronskega jezikovnega modela smo pri poskusih dosegli največjo natančnost klasifikacije: 96,7 %.
Ključne besede:Dokumentna inteligenca, obdelava naravnih jezikov, prepoznava imenskih entitet, jezikovni modeli, transformatorji
Kraj izida:Maribor
Kraj izvedbe:Maribor
Založnik:[U. Knupleš]
Leto izida:2021
Št. strani:IX, 35 str.
PID:20.500.12556/DKUM-80444 Novo okno
UDK:004.652.8(043.2)
COBISS.SI-ID:95975171 Novo okno
Datum objave v DKUM:18.10.2021
Število ogledov:809
Število prenosov:35
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
Področja:KTFMB - FERI
:
Kopiraj citat
  
Skupna ocena:(0 glasov)
Vaša ocena:Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
Objavi na:Bookmark and Share


Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Licence

Licenca:CC BY-NC 4.0, Creative Commons Priznanje avtorstva-Nekomercialno 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by-nc/4.0/deed.sl
Opis:Licenca Creative Commons, ki prepoveduje komercialno uporabo, vendar uporabniki ne rabijo upravljati materialnih avtorskih pravic na izpeljanih delih z enako licenco.
Začetek licenciranja:13.09.2021

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Named entity recognition on unstructured documents using neural language models
Opis:Layouts and formats of information, in unstructured documents, can differ from one another and can make the extraction of information difficult and costly. Therefore, in recent years, the field of document intelligence began with the usage of neural language models trained on datasets of documents for document understanding. In the thesis, we adopt a pre-trained neural language model based on transformers, for information extraction out of scanned store invoices. The model is fine-tuned, using the SROIE dataset, based on four categories to extract store names and addresses, dates and total prices. For information extraction we used named entity recognition to classify tokens into the four prementioned categories. We conducted experiments using altered hyperparameters of the model for comparison. With the usage of the fine-tuned, altered neural language model, we achieved a maximum classification accuracy score of 96.7 %.
Ključne besede:Document intelligence, natural language processing, named entity recognition, langauge models, transformers


Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)
0 - 0 / 0
 
Ni komentarjev!

Nazaj
Logotipi partnerjev Univerza v Mariboru Univerza v Ljubljani Univerza na Primorskem Univerza v Novi Gorici