| | SLO | ENG | Cookies and privacy

Bigger font | Smaller font

Search the digital library catalog Help

Query: search in
search in
search in
search in
* old and bologna study programme

Options:
  Reset


1 - 2 / 2
First pagePrevious page1Next pageLast page
1.
Razpoznava govorcev na mobilni platformi : magistrsko delo
Jože Fartek, 2021, master's thesis

Abstract: V magistrskem delu smo predstavili osnove razpoznave govorcev. V ta namen smo najprej opisali izračun vokalnih značilnic. Podrobneje smo predstavili metodo izračuna mel-frekvenčnih kepstralnih koeficientov (MFCC) in prednosti metode v primerjavi z ostalimi pristopi. Opisali smo tudi učenje glasovnih modelov in novejši metodi, ki temeljita na supervektorjih. Na podlagi tega smo v nadaljevanju magistrskega dela razvili Androidovo mobilno aplikacijo, ki v realnem času razpoznava govorce. Pri razpoznavi govorcev smo se omejili na razpoznavo le nekaj oseb. Iz zvočnih posnetkov posameznih govorcev smo izračunali MFCC in jih uporabili za učenje glasovnega modela s pomočjo konvolucijske nevronske mreže. Za optimizacijo parametrov smo primerjali, kako različni parametri vplivajo na učenje glasovnega modela. Primerjali smo, kako dolžina zvočnih posnetkov v razponu 0,5–3 sekunde vpliva na uspešnost razpoznave. Ugotovili smo, da uspešnost modela z večanjem dolžine zvočnega posnetka vse do 1,5 sekunde narašča, nato pa se naraščanje ustavi. Pri primerjavi števila MFCC med 16 in 128 uspešnost modela do 48 MFCC narašča, nato pa se naraščanje ustavi. Pri primerjavi nivoja izpuščenih nevronov med 0 in 0,7 dobimo boljšo natančnost modela z večanjem nivoja izpuščenih nevronov do 0,5, nato pa začne uspešnost padati. Glede na primerjavo smo pri učenju glasovnega modela uporabili zvočne posnetke dolžine 1 sekunde, 32 izračunanih MFCC in nivo izpuščenih nevronov 0,4. Pri tem smo dobili 88-odstotno natančnost modela. Pri razpoznavi smo ugotovili, da hitrost govora vpliva na uspešnost razpoznave, medtem ko glasnost govora nanjo ne vpliva. Testiranje smo izvajali na mobilni napravi LG G7 ThinQ. Izračun MFCC na mobilni napravi je v povprečju trajal 170 milisekund, razpoznava z modelom TensorFlow Lite pa le 8 milisekund.
Keywords: razpoznava govorcev, mel-frekvenčni kepstralni koeficienti, konvolucijske nevronske mreže, Android
Published in DKUM: 31.01.2022; Views: 947; Downloads: 67
.pdf Full text (3,95 MB)

2.
Konvolucijske nevronske mreže za odkrivanje napak s pomočjo zvoka : magistrsko delo
Gorazd Fažmon, 2020, master's thesis

Abstract: V magistrskem delu je predstavljen razvoj sistema za zaznavanje napak v industrijskih procesih, ki temelji na osnovi zaznave zvoka. S pomočjo programskega orodja Audacity, so zajeti zvočni signali proizvodnih postopkov. S programskim orodjem Python je izdelan program za pretvorbo zvočnega signala v sliko. Z uporabo Python knjižnice TensorFlow je program naučen, da prepozna napako. Podan je podroben opis pomembnih pojmov, algoritmov, metod in testiranj sistema. Glavni cilj naloge je implementirati zgrajen sistem na dejanskem proizvodnem postopku.
Keywords: konvolucijska nevronska mreža, kakovost zvoka, spektrogram, Mel frekvenčni kepstralni koeficienti (MFCC), TensorFlow
Published in DKUM: 04.11.2020; Views: 1154; Downloads: 143
.pdf Full text (1,97 MB)

Search done in 0.06 sec.
Back to top
Logos of partners University of Maribor University of Ljubljana University of Primorska University of Nova Gorica