Naslov: | Razpoznava govorcev na mobilni platformi : magistrsko delo |
---|
Avtorji: | ID Fartek, Jože (Avtor) ID Holobar, Aleš (Mentor) Več o mentorju...  |
Datoteke: | MAG_Fartek_Joze_2022.pdf (3,95 MB) MD5: 73F1637C5145DED5F26B80B7A97318B8 PID: 20.500.12556/dkum/2a30c972-2729-4ef1-86d3-0a69b822b4df
|
---|
Jezik: | Slovenski jezik |
---|
Vrsta gradiva: | Magistrsko delo/naloga |
---|
Tipologija: | 2.09 - Magistrsko delo |
---|
Organizacija: | FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
|
---|
Opis: | V magistrskem delu smo predstavili osnove razpoznave govorcev. V ta namen smo najprej opisali izračun vokalnih značilnic. Podrobneje smo predstavili metodo izračuna mel-frekvenčnih kepstralnih koeficientov (MFCC) in prednosti metode v primerjavi z ostalimi pristopi. Opisali smo tudi učenje glasovnih modelov in novejši metodi, ki temeljita na supervektorjih. Na podlagi tega smo v nadaljevanju magistrskega dela razvili Androidovo mobilno aplikacijo, ki v realnem času razpoznava govorce. Pri razpoznavi govorcev smo se omejili na razpoznavo le nekaj oseb. Iz zvočnih posnetkov posameznih govorcev smo izračunali MFCC in jih uporabili za učenje glasovnega modela s pomočjo konvolucijske nevronske mreže. Za optimizacijo parametrov smo primerjali, kako različni parametri vplivajo na učenje glasovnega modela. Primerjali smo, kako dolžina zvočnih posnetkov v razponu 0,5–3 sekunde vpliva na uspešnost razpoznave. Ugotovili smo, da uspešnost modela z večanjem dolžine zvočnega posnetka vse do 1,5 sekunde narašča, nato pa se naraščanje ustavi. Pri primerjavi števila MFCC med 16 in 128 uspešnost modela do 48 MFCC narašča, nato pa se naraščanje ustavi. Pri primerjavi nivoja izpuščenih nevronov med 0 in 0,7 dobimo boljšo natančnost modela z večanjem nivoja izpuščenih nevronov do 0,5, nato pa začne uspešnost padati. Glede na primerjavo smo pri učenju glasovnega modela uporabili zvočne posnetke dolžine 1 sekunde, 32 izračunanih MFCC in nivo izpuščenih nevronov 0,4. Pri tem smo dobili 88-odstotno natančnost modela. Pri razpoznavi smo ugotovili, da hitrost govora vpliva na uspešnost razpoznave, medtem ko glasnost govora nanjo ne vpliva. Testiranje smo izvajali na mobilni napravi LG G7 ThinQ. Izračun MFCC na mobilni napravi je v povprečju trajal 170 milisekund, razpoznava z modelom TensorFlow Lite pa le 8 milisekund. |
---|
Ključne besede: | razpoznava govorcev, mel-frekvenčni kepstralni koeficienti, konvolucijske nevronske mreže, Android |
---|
Kraj izida: | Maribor |
---|
Kraj izvedbe: | Maribor |
---|
Založnik: | [J. Fartek] |
---|
Leto izida: | 2021 |
---|
Št. strani: | 1 spletni vir (1 datoteka PDF (X, 64 f.)) |
---|
PID: | 20.500.12556/DKUM-81072  |
---|
UDK: | 004.934.8\'1(043.2) |
---|
COBISS.SI-ID: | 98851331  |
---|
Datum objave v DKUM: | 31.01.2022 |
---|
Število ogledov: | 947 |
---|
Število prenosov: | 69 |
---|
Metapodatki: |  |
---|
Področja: | KTFMB - FERI
|
---|
:
|
Kopiraj citat |
---|
| | | Skupna ocena: | (0 glasov) |
---|
Vaša ocena: | Ocenjevanje je dovoljeno samo prijavljenim uporabnikom. |
---|
Objavi na: |  |
---|
Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše
podrobnosti ali sproži prenos. |