| | SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Izpis gradiva Pomoč

Naslov:Razpoznava govorcev na mobilni platformi : magistrsko delo
Avtorji:ID Fartek, Jože (Avtor)
ID Holobar, Aleš (Mentor) Več o mentorju... Novo okno
Datoteke:.pdf MAG_Fartek_Joze_2022.pdf (3,95 MB)
MD5: 73F1637C5145DED5F26B80B7A97318B8
PID: 20.500.12556/dkum/2a30c972-2729-4ef1-86d3-0a69b822b4df
 
Jezik:Slovenski jezik
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Opis:V magistrskem delu smo predstavili osnove razpoznave govorcev. V ta namen smo najprej opisali izračun vokalnih značilnic. Podrobneje smo predstavili metodo izračuna mel-frekvenčnih kepstralnih koeficientov (MFCC) in prednosti metode v primerjavi z ostalimi pristopi. Opisali smo tudi učenje glasovnih modelov in novejši metodi, ki temeljita na supervektorjih. Na podlagi tega smo v nadaljevanju magistrskega dela razvili Androidovo mobilno aplikacijo, ki v realnem času razpoznava govorce. Pri razpoznavi govorcev smo se omejili na razpoznavo le nekaj oseb. Iz zvočnih posnetkov posameznih govorcev smo izračunali MFCC in jih uporabili za učenje glasovnega modela s pomočjo konvolucijske nevronske mreže. Za optimizacijo parametrov smo primerjali, kako različni parametri vplivajo na učenje glasovnega modela. Primerjali smo, kako dolžina zvočnih posnetkov v razponu 0,5–3 sekunde vpliva na uspešnost razpoznave. Ugotovili smo, da uspešnost modela z večanjem dolžine zvočnega posnetka vse do 1,5 sekunde narašča, nato pa se naraščanje ustavi. Pri primerjavi števila MFCC med 16 in 128 uspešnost modela do 48 MFCC narašča, nato pa se naraščanje ustavi. Pri primerjavi nivoja izpuščenih nevronov med 0 in 0,7 dobimo boljšo natančnost modela z večanjem nivoja izpuščenih nevronov do 0,5, nato pa začne uspešnost padati. Glede na primerjavo smo pri učenju glasovnega modela uporabili zvočne posnetke dolžine 1 sekunde, 32 izračunanih MFCC in nivo izpuščenih nevronov 0,4. Pri tem smo dobili 88-odstotno natančnost modela. Pri razpoznavi smo ugotovili, da hitrost govora vpliva na uspešnost razpoznave, medtem ko glasnost govora nanjo ne vpliva. Testiranje smo izvajali na mobilni napravi LG G7 ThinQ. Izračun MFCC na mobilni napravi je v povprečju trajal 170 milisekund, razpoznava z modelom TensorFlow Lite pa le 8 milisekund.
Ključne besede:razpoznava govorcev, mel-frekvenčni kepstralni koeficienti, konvolucijske nevronske mreže, Android
Kraj izida:Maribor
Kraj izvedbe:Maribor
Založnik:[J. Fartek]
Leto izida:2021
Št. strani:1 spletni vir (1 datoteka PDF (X, 64 f.))
PID:20.500.12556/DKUM-81072 Novo okno
UDK:004.934.8\'1(043.2)
COBISS.SI-ID:98851331 Novo okno
Datum objave v DKUM:31.01.2022
Število ogledov:799
Število prenosov:60
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
Področja:KTFMB - FERI
:
Kopiraj citat
  
Skupna ocena:(0 glasov)
Vaša ocena:Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
Objavi na:Bookmark and Share


Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Licence

Licenca:CC BY-NC-ND 4.0, Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by-nc-nd/4.0/deed.sl
Opis:Najbolj omejujoča licenca Creative Commons. Uporabniki lahko prenesejo in delijo delo v nekomercialne namene in ga ne smejo uporabiti za nobene druge namene.
Začetek licenciranja:22.12.2021

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Speaker recognition on mobile devices
Opis:In this master's thesis, we review the basics of speaker recognition. We described how audio feature extraction works. We look more into details how Mel-frequency Cepstral Coefficients feature extraction works and what are its advantages compared to other feature extraction methods. This part is followed by an overview of speaker models and newer methods based on super vectors. Based on this, we have developed a mobile application, which recognizes speakers in real-time. Application was developed for operating system Android. In identifying speakers, we limited recognition to only a few people. Mel-frequency Cepstral Coefficients were extracted from the audio recordings of individual speakers and used to train the speaker model using a convolutional neural network. To get better results in a real-time recognition, we compared how different parameters affect the training of the speaker model. We compared how the length of the audio recording between 0,5 and 3 seconds affects the recognition performance. We found out that the performance of the sound model increases with increasing the length of the audio recording up to 1,5 seconds, and then the increasing stops. We compared speaker model performance by changing the number of MFCC coefficients between 16 and 128. Performance of the modal is increasing up to 48 MFCC coefficients and then the increasing stops. We also compared the affect of neural network dropout rate between 0 and 0,7. The speaker model performance is increasing up to a 0,5 dropout rate and then the performance begins to decline. According to the comparison, for the implemented mobile application we used an audio recordings of one second length, 32 MFCC coefficients and 0,4 for dropout rate. We achieved 88% accuracy of the speaker model. We measured how speech tempo and loudness affect recognition accuracy. The slower and faster we speak the recognition accuracy is decreasing while with loudness the accuracy it’s not affected. We performed testing on LG G7 ThinkQ mobile device and measured that the average time to calculate MFCC coefficients is 170 milliseconds and recognition with the TensorFlow Lite model takes only 8 milliseconds.
Ključne besede:Speaker recognition, Mel-frequency Cepstral Coefficients, Convolutional neural network, Android


Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)
0 - 0 / 0
 
Ni komentarjev!

Nazaj
Logotipi partnerjev Univerza v Mariboru Univerza v Ljubljani Univerza na Primorskem Univerza v Novi Gorici