| | SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Izpis gradiva

Naslov:Uporaba vektorske vgradnje za inteligentno obdelavo slovenskega besedila : magistrsko delo
Avtorji:Strnišnik, Urban (Avtor)
Karakatič, Sašo (Mentor) Več o mentorju... Novo okno
Datoteke:.pdf MAG_Strnisnik_Urban_2020.pdf (3,65 MB)
MD5: 8E1062F861D0F3D8D15D6D7015C18EDD
 
Jezik:Slovenski jezik
Vrsta gradiva:Magistrsko delo/naloga (mb22)
Tipologija:2.09 - Magistrsko delo
Organizacija:FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Opis:V sklopu magistrske naloge smo se najprej osredotočili v problematiko pridobivanja uporabnega znanja iz nestrukturiranega besedila. Po poročilih IDC je razmerje med strukturiranimi in nestrukturiranimi podatki vsako leto večje. Načinov pridobivanja uporabnega znanja iz nestrukturiranega besedila je več, ena izmed njih so besedne vložitve oz. vektorska vgradnja. Najprej smo se posvetili pregledu tehnik besednih vložitev, kaj to je in kaj z njimi dosežemo. Ugotovili smo, da da izraz besedna vložitev stoji za določitvijo vektorske vrednosti besedi, s katero lahko izvajamo nadaljnje računske operacije. Namen magistrske naloge je bil preizkusiti nekatere algoritme vektorske vgradnje, izdelati lastne modele obdelave besedil in jih nato primerjati z nekaterimi že obstoječimi modeli. Lastne in obstoječe modele obdelave besedil smo nato preizkusili in na podlagi primerjave ugotovili prednosti in slabosti pri uporabi v določenem okolju. V sklopu učenja modelov smo se osredotočili tako v nadzorovane kot tudi v nenadzorovane tehnike učenja. Vhodni korpus podatkov smo pridobili iz pravilnikov štirinajstih slovenskih univerz in fakultet. Iz ugotovljenih rezultatov smo opravili analizo in diskusijo rezultatov, kjer smo dobili odgovore na zastavljena raziskovalna vprašanja, hipoteze pa sprejeli ali zavrnili.
Ključne besede:Besedne vložitve, strojno učenje, fastText, obdelava naravnega jezika, doc2vec, word2vec, klasifikacija besedila, nadzorovano učenje, nenadzorovano učenje
Leto izida:2020
Kraj izvedbe:Maribor
Založnik:[U. Strnišnik]
Št. strani:VII, 66 f.
Izvor:Maribor
UDK:004.85:81\'4(043.2)
COBISS_ID:38002947 Novo okno
NUK URN:URN:SI:UM:DK:FHXCKHGU
Število ogledov:124
Število prenosov:32
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
Področja:KTFMB - FERI
:
  
Skupna ocena:(0 glasov)
Vaša ocena:Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
Objavi na:AddThis
AddThis uporablja piškotke, za katere potrebujemo vaše privoljenje.
Uredi privoljenje...

Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Licence

Licenca:CC BY-NC-ND 4.0, Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by-nc-nd/4.0/deed.sl
Opis:Najbolj omejujoča licenca Creative Commons. Uporabniki lahko prenesejo in delijo delo v nekomercialne namene in ga ne smejo uporabiti za nobene druge namene.
Začetek licenciranja:03.08.2020

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Use of vector embedding for intelligent processing of slovene text
Opis:In this master’s thesis, we first focused on the issue of acquiring useful knowledge from an unstructured text. According to IDC reports, the ratio between structured and unstructured data is increasing every year. There are several ways of acquiring useful knowledge from unstructured text, one of which is word embedding or vector embedding. We first looked at a review of word embedding techniques, what they are, and what we achieve with them. We found that the term word embedding stands for determining the vector value of word with which we can perform further computational operations. The purpose of the master's thesis was to test some vector embedding algorithms, create our own language processing models and then compare them with some existing models. We then tested our own and existing language processing models and, based on the comparison, identified the advantages and disadvantages of using them in a particular environment. As part of model learning, we focused on both supervised and unsupervised learning techniques. The input data corpus was obtained from the rules of fourteen Slovenian universities and faculties. From the results found, we performed an analysis and discussion of the results, where we received answers to the research questions, and the hypotheses were accepted or rejected.
Ključne besede:Word embedding, machine learning, fastText, natural language processing, doc2vec, word2vec, text classification, supervised learning, unsupervised learning.


Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)
0 - 0 / 0
 
Ni komentarjev!

Nazaj
Logotipi partnerjev Univerza v Mariboru Univerza v Ljubljani Univerza na Primorskem Univerza v Novi Gorici