| | SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Izpis gradiva

Naslov:PORAZDELJENA POMENSKA ANALIZA DOKUMENTOV V PROGRAMSKEM OGRODJU APACHE HADOOP
Avtorji:Starina, David (Avtor)
Ojsteršek, Milan (Mentor) Več o mentorju... Novo okno
Datoteke:.pdf UN_Starina_David_2016.pdf (1,33 MB)
MD5: 741BBE3BB24F58B70B46E807F6D0C71F
 
Jezik:Slovenski jezik
Vrsta gradiva:Diplomsko delo (m5)
Tipologija:2.11 - Diplomsko delo
Organizacija:FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Opis:V diplomskem delu obravnavamo porazdeljeno pomensko analizo dokumentov v programskem ogrodju Apache Hadoop. Opišemo sestavo in delovanje Hadoopa, predvsem porazdeljenega datotečnega sistema HDFS in pogajalca za vire YARN. Predstavimo različne metode za pomensko analizo besedil, osredotočimo se na linearno Dirichletovo razporeditev (LDA) in podamo različne metrike za ugotavljanje podobnosti med vektorji. Predstavimo implementacijo rešitve za iskanje podobnih dokumentov s pomočjo programske knjižnice Apache Mahout in razpravljamo o primerih z LDA-jem generiranih tem. Predstavimo rezultate meritev na porazdeljeni in ne-porazdeljeni različici in predstavimo nekaj predlogov za hitrejšo analizo.
Ključne besede:pomenska analiza, porazdeljena obdelava, Hadoop, linearna Dirichletova razporeditev, procesiranje naravnega jezika
Leto izida:2016
Založnik:D. Starina
Izvor:[Maribor
UDK:004.6:004.728.8(043.2)
COBISS_ID:20190742 Novo okno
NUK URN:URN:SI:UM:DK:Y1GNB3MD
Število ogledov:805
Število prenosov:130
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
Področja:KTFMB - FERI
:
  
Skupna ocena:(0 glasov)
Vaša ocena:Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
Objavi na:AddThis
AddThis uporablja piškotke, za katere potrebujemo vaše privoljenje.
Uredi privoljenje...

Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Sekundarni jezik

Jezik:Angleški jezik
Naslov:DISTRIBUTED SEMANTIC ANALYSIS OF DOCUMENTS USING APACHE HADOOP
Opis:In this thesis we deal with distributed semantic analysis of documents in the Apache Hadoop programming framework. We describe the composition and operation of Hadoop, mainly of the distributed file system, HDFS and resource negotiator, YARN. We present different methods of semantic text analysis, focusing on the linear Dirichlet allocation (LDA), and describe different metrics to determine vector similarity. We present implementation of the solution for searching similar documents using Apache Mahout software library and discuss examples of LDA-generated topics. We presented the measurement results on distributed and non-distributed version and present some suggestions for faster analysis.
Ključne besede:semantic analysis, distributed processing, Hadoop, linear Dirichlet allocation, natural language processing


Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)
0 - 0 / 0
 
Ni komentarjev!

Nazaj
Logotipi partnerjev Univerza v Mariboru Univerza v Ljubljani Univerza na Primorskem Univerza v Novi Gorici