Vaš brskalnik ne omogoča JavaScript!
JavaScript je nujen za pravilno delovanje teh spletnih strani. Omogočite JavaScript ali uporabite sodobnejši brskalnik.
|
|
SLO
|
ENG
|
Piškotki in zasebnost
DKUM
EPF - Ekonomsko-poslovna fakulteta
FE - Fakulteta za energetiko
FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
FF - Filozofska fakulteta
FGPA - Fakulteta za gradbeništvo, prometno inženirstvo in arhitekturo
FKBV - Fakulteta za kmetijstvo in biosistemske vede
FKKT - Fakulteta za kemijo in kemijsko tehnologijo
FL - Fakulteta za logistiko
FNM - Fakulteta za naravoslovje in matematiko
FOV - Fakulteta za organizacijske vede
FS - Fakulteta za strojništvo
FT - Fakulteta za turizem
FVV - Fakulteta za varnostne vede
FZV - Fakulteta za zdravstvene vede
MF - Medicinska fakulteta
PEF - Pedagoška fakulteta
PF - Pravna fakulteta
UKM - Univerzitetna knjižnica Maribor
UM - Univerza v Mariboru
UZUM - Univerzitetna založba Univerze v Mariboru
COBISS
Ekonomsko poslovna fakulteta
Fakulteta za kmetijstvo in biosistemske vede
Fakulteta za logistiko
Fakulteta za organizacijske vede
Fakulteta za varnostne vede
Fakulteta za zdravstvene vede
Knjižnica tehniških fakultet
Medicinska fakulteta
Miklošičeva knjižnica - FPNM
Pravna fakulteta
Univerzitetna knjižnica Maribor
Večja pisava
|
Manjša pisava
Uvodnik
Iskanje
Brskanje
Oddaja dela
Za študente
Za zaposlene
Statistika
Prijava
Prva stran
>
Izpis gradiva
Izpis gradiva
Naslov:
Razpoznava govorcev na mobilni platformi : magistrsko delo
Avtorji:
ID
Fartek, Jože
(Avtor)
ID
Holobar, Aleš
(Mentor)
Več o mentorju...
Datoteke:
MAG_Fartek_Joze_2022.pdf
(3,95 MB)
MD5: 73F1637C5145DED5F26B80B7A97318B8
PID:
20.500.12556/dkum/2a30c972-2729-4ef1-86d3-0a69b822b4df
Jezik:
Slovenski jezik
Vrsta gradiva:
Magistrsko delo/naloga
Tipologija:
2.09 - Magistrsko delo
Organizacija:
FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Opis:
V magistrskem delu smo predstavili osnove razpoznave govorcev. V ta namen smo najprej opisali izračun vokalnih značilnic. Podrobneje smo predstavili metodo izračuna mel-frekvenčnih kepstralnih koeficientov (MFCC) in prednosti metode v primerjavi z ostalimi pristopi. Opisali smo tudi učenje glasovnih modelov in novejši metodi, ki temeljita na supervektorjih. Na podlagi tega smo v nadaljevanju magistrskega dela razvili Androidovo mobilno aplikacijo, ki v realnem času razpoznava govorce. Pri razpoznavi govorcev smo se omejili na razpoznavo le nekaj oseb. Iz zvočnih posnetkov posameznih govorcev smo izračunali MFCC in jih uporabili za učenje glasovnega modela s pomočjo konvolucijske nevronske mreže. Za optimizacijo parametrov smo primerjali, kako različni parametri vplivajo na učenje glasovnega modela. Primerjali smo, kako dolžina zvočnih posnetkov v razponu 0,5–3 sekunde vpliva na uspešnost razpoznave. Ugotovili smo, da uspešnost modela z večanjem dolžine zvočnega posnetka vse do 1,5 sekunde narašča, nato pa se naraščanje ustavi. Pri primerjavi števila MFCC med 16 in 128 uspešnost modela do 48 MFCC narašča, nato pa se naraščanje ustavi. Pri primerjavi nivoja izpuščenih nevronov med 0 in 0,7 dobimo boljšo natančnost modela z večanjem nivoja izpuščenih nevronov do 0,5, nato pa začne uspešnost padati. Glede na primerjavo smo pri učenju glasovnega modela uporabili zvočne posnetke dolžine 1 sekunde, 32 izračunanih MFCC in nivo izpuščenih nevronov 0,4. Pri tem smo dobili 88-odstotno natančnost modela. Pri razpoznavi smo ugotovili, da hitrost govora vpliva na uspešnost razpoznave, medtem ko glasnost govora nanjo ne vpliva. Testiranje smo izvajali na mobilni napravi LG G7 ThinQ. Izračun MFCC na mobilni napravi je v povprečju trajal 170 milisekund, razpoznava z modelom TensorFlow Lite pa le 8 milisekund.
Ključne besede:
razpoznava govorcev
,
mel-frekvenčni kepstralni koeficienti
,
konvolucijske nevronske mreže
,
Android
Kraj izida:
Maribor
Kraj izvedbe:
Maribor
Založnik:
[J. Fartek]
Leto izida:
2021
Št. strani:
1 spletni vir (1 datoteka PDF (X, 64 f.))
PID:
20.500.12556/DKUM-81072
UDK:
004.934.8\'1(043.2)
COBISS.SI-ID:
98851331
Datum objave v DKUM:
31.01.2022
Število ogledov:
947
Število prenosov:
69
Metapodatki:
Področja:
KTFMB - FERI
Citiraj gradivo
Navadno besedilo
BibTeX
EndNote XML
EndNote/Refer
RIS
ABNT
ACM Ref
AMA
APA
Chicago 17th Author-Date
Harvard
IEEE
ISO 690
MLA
Vancouver
:
FARTEK, Jože, 2021,
Razpoznava govorcev na mobilni platformi : magistrsko delo
[na spletu]. Magistrsko delo. Maribor : J. Fartek. [Dostopano 25 marec 2025]. Pridobljeno s: https://dk.um.si/IzpisGradiva.php?lang=slv&id=81072
Kopiraj citat
Skupna ocena:
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
(0 glasov)
Vaša ocena:
Ocenjevanje je dovoljeno samo
prijavljenim
uporabnikom.
Objavi na:
Iščem podobna dela...
Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.
Licence
Licenca:
CC BY-NC-ND 4.0, Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna
Povezava:
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.sl
Opis:
Najbolj omejujoča licenca Creative Commons. Uporabniki lahko prenesejo in delijo delo v nekomercialne namene in ga ne smejo uporabiti za nobene druge namene.
Začetek licenciranja:
22.12.2021
Sekundarni jezik
Jezik:
Angleški jezik
Naslov:
Speaker recognition on mobile devices
Opis:
In this master's thesis, we review the basics of speaker recognition. We described how audio feature extraction works. We look more into details how Mel-frequency Cepstral Coefficients feature extraction works and what are its advantages compared to other feature extraction methods. This part is followed by an overview of speaker models and newer methods based on super vectors. Based on this, we have developed a mobile application, which recognizes speakers in real-time. Application was developed for operating system Android. In identifying speakers, we limited recognition to only a few people. Mel-frequency Cepstral Coefficients were extracted from the audio recordings of individual speakers and used to train the speaker model using a convolutional neural network. To get better results in a real-time recognition, we compared how different parameters affect the training of the speaker model. We compared how the length of the audio recording between 0,5 and 3 seconds affects the recognition performance. We found out that the performance of the sound model increases with increasing the length of the audio recording up to 1,5 seconds, and then the increasing stops. We compared speaker model performance by changing the number of MFCC coefficients between 16 and 128. Performance of the modal is increasing up to 48 MFCC coefficients and then the increasing stops. We also compared the affect of neural network dropout rate between 0 and 0,7. The speaker model performance is increasing up to a 0,5 dropout rate and then the performance begins to decline. According to the comparison, for the implemented mobile application we used an audio recordings of one second length, 32 MFCC coefficients and 0,4 for dropout rate. We achieved 88% accuracy of the speaker model. We measured how speech tempo and loudness affect recognition accuracy. The slower and faster we speak the recognition accuracy is decreasing while with loudness the accuracy it’s not affected. We performed testing on LG G7 ThinkQ mobile device and measured that the average time to calculate MFCC coefficients is 170 milliseconds and recognition with the TensorFlow Lite model takes only 8 milliseconds.
Ključne besede:
Speaker recognition
,
Mel-frequency Cepstral Coefficients
,
Convolutional neural network
,
Android
Komentarji
Dodaj komentar
Za komentiranje se morate
prijaviti
.
Komentarji (0)
0 - 0 / 0
Ni komentarjev!
Nazaj