Abstract: V diplomskem delu smo obdelali področje pridobivanja dokumentov iz različnih virov na internetu. V teoretičnem delu smo predstavili, kako delujejo spletni pajki, strežniki OAI-PMH in OAI-ORE ter orodje Appache Tika, ki omogoča pretvorbo različnih vrst dokumentov v tekstovno obliko in ekstrakcijo metapodatkov. Zatem smo na kratko predstavili naloge, ki jih rešujejo sistemi za obdelavo besedil v naravnem jeziku. V praktičnem delu smo izdelali programski paket za pridobivanje dokumentov iz interneta in primerjanje besedil iz teh dokumentov. Keywords: procesiranje naravnega jezika, metapodatki, spletni pajki, OAI-PMH, detekcija plagiatovPublished in DKUM: 14.03.2012; Views: 3419; Downloads: 264 Full text (2,57 MB)
Keywords: komunikacijski protokol, linijska učinkovitost, specifikacija, simulacijaPublished in DKUM: 26.07.2007; Views: 3216; Downloads: 0