Abstract: Diplomsko delo zajema predstavitev načrtovanja in implementacije programske rešitve za segmentiranje diplomskih del iz Digitalne knjižnice Univerze v Mariboru (DKUM). V delu smo najprej opisali področje procesiranja naravnega jezika in ujemanja vzorcev. Zatem smo opisali programsko rešitev. Predstavili smo postopek pridobitve čistega teksta iz dokumentov PDF, nato analizo zgradbe diplomskih nalog in njihovo segmentiranje. Podali smo tudi opis razvojnega okolja ter opisali težave in omejitve, na katere smo naleteli med razvojem programske rešitve. V zaključku smo podali nekaj sklepnih misli o rezultatih in možnostih nadaljnjega dela. Keywords: segmentiranje besedila, procesiranje naravnega jezika, ujemanje vzorcev, regularni izraziPublished in DKUM: 23.09.2011; Views: 2506; Downloads: 203 (1 vote) Full text (2,29 MB)
Keywords: XML, perl, regularni izrazi, označevalni jeziki, razpoznavalniki, e-založništvo, e-knjigaPublished in DKUM: 26.07.2007; Views: 3014; Downloads: 0