| | SLO | ENG | Cookies and privacy

Bigger font | Smaller font

Search the digital library catalog Help

Query: search in
search in
search in
search in
* old and bologna study programme

Options:
  Reset


1 - 1 / 1
First pagePrevious page1Next pageLast page
1.
NADZOROVANO ODKRIVANJE PREDMETA TEKSTOVNIH VSEBIN Z UPORABO SELEKCIJSKIH IN STATISTIČNIH METOD
Sašo Hrnčić, 2016, undergraduate thesis

Abstract: Cilj diplomske naloge je izdelati preprost kategorizacijski sistem, ki zna nov tekstovni dokument čim natančneje uvrstiti v naprej definirane kategorije. Ena izmed funkcionalnosti sistema je prepoznavanje jezika, ki je bilo testirano na podatkovnih korpusih dokumentov Wikipedije, Europarla in jezikovnih modelov projekta LibTextCat. Kategorizacijski sistem je bil razširjen še na prepoznavanje v naprej definiranih tematikah korpusa 20 Newsgroups in Reuters-21578. Za predstavitev dokumentov smo uporabili n-gramsko tehniko, ki smo jo kombinirali s selekcijskimi in statističnimi metodami. Dosežene rezultate smo analizirali ter dokumentirali. Podrobneje smo predstavili problematiko, lastne izkušnje, lastnosti uporabljenih metod ter obstoječe raziskave.
Keywords: tekstovno kategoriziranje, n-grami, strojno učenje, teorija informacij, odmik od najpomembnejšega elementa
Published: 16.09.2016; Views: 386; Downloads: 31
.pdf Full text (2,31 MB)

Search done in 0.03 sec.
Back to top
Logos of partners University of Maribor University of Ljubljana University of Primorska University of Nova Gorica