| | SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Iskanje po katalogu digitalne knjižnice Pomoč

Iskalni niz: išči po
išči po
išči po
išči po
* po starem in bolonjskem študiju

Opcije:
  Ponastavi


1 - 2 / 2
Na začetekNa prejšnjo stran1Na naslednjo stranNa konec
1.
Razpoznava govorcev na mobilni platformi : magistrsko delo
Jože Fartek, 2021, magistrsko delo

Opis: V magistrskem delu smo predstavili osnove razpoznave govorcev. V ta namen smo najprej opisali izračun vokalnih značilnic. Podrobneje smo predstavili metodo izračuna mel-frekvenčnih kepstralnih koeficientov (MFCC) in prednosti metode v primerjavi z ostalimi pristopi. Opisali smo tudi učenje glasovnih modelov in novejši metodi, ki temeljita na supervektorjih. Na podlagi tega smo v nadaljevanju magistrskega dela razvili Androidovo mobilno aplikacijo, ki v realnem času razpoznava govorce. Pri razpoznavi govorcev smo se omejili na razpoznavo le nekaj oseb. Iz zvočnih posnetkov posameznih govorcev smo izračunali MFCC in jih uporabili za učenje glasovnega modela s pomočjo konvolucijske nevronske mreže. Za optimizacijo parametrov smo primerjali, kako različni parametri vplivajo na učenje glasovnega modela. Primerjali smo, kako dolžina zvočnih posnetkov v razponu 0,5–3 sekunde vpliva na uspešnost razpoznave. Ugotovili smo, da uspešnost modela z večanjem dolžine zvočnega posnetka vse do 1,5 sekunde narašča, nato pa se naraščanje ustavi. Pri primerjavi števila MFCC med 16 in 128 uspešnost modela do 48 MFCC narašča, nato pa se naraščanje ustavi. Pri primerjavi nivoja izpuščenih nevronov med 0 in 0,7 dobimo boljšo natančnost modela z večanjem nivoja izpuščenih nevronov do 0,5, nato pa začne uspešnost padati. Glede na primerjavo smo pri učenju glasovnega modela uporabili zvočne posnetke dolžine 1 sekunde, 32 izračunanih MFCC in nivo izpuščenih nevronov 0,4. Pri tem smo dobili 88-odstotno natančnost modela. Pri razpoznavi smo ugotovili, da hitrost govora vpliva na uspešnost razpoznave, medtem ko glasnost govora nanjo ne vpliva. Testiranje smo izvajali na mobilni napravi LG G7 ThinQ. Izračun MFCC na mobilni napravi je v povprečju trajal 170 milisekund, razpoznava z modelom TensorFlow Lite pa le 8 milisekund.
Ključne besede: razpoznava govorcev, mel-frekvenčni kepstralni koeficienti, konvolucijske nevronske mreže, Android
Objavljeno v DKUM: 31.01.2022; Ogledov: 947; Prenosov: 68
.pdf Celotno besedilo (3,95 MB)

2.
Konvolucijske nevronske mreže za odkrivanje napak s pomočjo zvoka : magistrsko delo
Gorazd Fažmon, 2020, magistrsko delo

Opis: V magistrskem delu je predstavljen razvoj sistema za zaznavanje napak v industrijskih procesih, ki temelji na osnovi zaznave zvoka. S pomočjo programskega orodja Audacity, so zajeti zvočni signali proizvodnih postopkov. S programskim orodjem Python je izdelan program za pretvorbo zvočnega signala v sliko. Z uporabo Python knjižnice TensorFlow je program naučen, da prepozna napako. Podan je podroben opis pomembnih pojmov, algoritmov, metod in testiranj sistema. Glavni cilj naloge je implementirati zgrajen sistem na dejanskem proizvodnem postopku.
Ključne besede: konvolucijska nevronska mreža, kakovost zvoka, spektrogram, Mel frekvenčni kepstralni koeficienti (MFCC), TensorFlow
Objavljeno v DKUM: 04.11.2020; Ogledov: 1154; Prenosov: 146
.pdf Celotno besedilo (1,97 MB)

Iskanje izvedeno v 0.06 sek.
Na vrh
Logotipi partnerjev Univerza v Mariboru Univerza v Ljubljani Univerza na Primorskem Univerza v Novi Gorici