1. Načrtovanje govornega vmesnika : navodila za vajeAndrej Žgank, 2023, drugo učno gradivo Ključne besede: telekomunikacije, govorni vmesniki, storitve, tonska izbira, avtomatsko razpoznavanje govora, avtomatska sinteza govora, navodila, vaje Objavljeno v DKUM: 27.11.2023; Ogledov: 423; Prenosov: 15 Celotno besedilo (3,95 MB) |
2. Slovenska baza BNSI broadcast news za razpoznavanje tekočega govoraAndrej Žgank, Darinka Verdonik, Zdravko Kačič, 2008, izvirni znanstveni članek Opis: V članku bomo predstavili nov slovenski jezikovni vir, bazo BNSI Broadcast News, ki vsebuje posnetke televizijskih dnevnoinformativnih oddaj. Vir je namenjen razvoju razpoznavalnikov tekočega govora z velikim slovarjem besed za neomejeno domeno. Sestavljajo ga govorna baza z ročno tvorjenimi transkripcijami v obsegu 36 ur in tekstovni korpus, ki vsebuje I I niio besed. Govorna baza je namenjena učenju akustičnih modelov, tekstovni korpus pa bo uporabljen za izdelavo jezikovnih modelov. Novi jezikovni vir je plod sodelovanja med Univerzo v Mariboru, FERI in IZ'FV Slovenija. V članku bomo najprej predstavili postopek zajemanja gradiva in karakteristike baze. Opisali bomo potek ročnega zapisovanja govornega korpusa. Sledila bo podrobna analiza govornega in tekstovnega dela baze, ki je namenjena predstavitvi vseh lastnosti jezikovnega vira, ki vplivajo na razvoj razpoznavalnikov govora. Ključne besede: slovenski jezikovni vir, avtomatsko razpoznavanje tekočega govora, govorni korpus, besedilni korpus, Broadcast news Objavljeno v DKUM: 10.07.2015; Ogledov: 1427; Prenosov: 66 Povezava na celotno besedilo |
3. AVTOMATSKO RAZPOZNAVANJE GOVORA ZA PREGIBNI JEZIK Z UPORABO MORFOLOŠKIH JEZIKOVNIH MODELOV S KONTEKSTNO ODVISNO STRUKTUROGregor Donaj, 2015, doktorska disertacija Opis: V nalogi smo se posvetili jezikovnemu modeliranju za avtomatsko razpoznavanje govora z velikim slovarjem besed. Pri takšnem razpoznavanju je še vedno velika težava pravilnost razpoznavanja izgovorjenih besed. Ta je še posebej izrazita pri morfološko kompleksnejših jezikih, kot je slovenščina. Za delovanje sistema razpoznavanja tekočega govora potrebujemo jezikovne modele. Da lahko zgradimo primeren jezikovni model, potrebujemo ustrezno velike učne množice podatkov, ki morajo pri morfološko kompleksnejših jezikih biti še večje. Sodobni razpoznavalniki govora za slovenščino delajo več napak kot razpoznavalniki za druge jezike. Pogost problem so napačno razpoznane končnice besed. To kaže, da je smiselno razmišljati o vključevanju oblikoskladenjskih informacij v jezikovno modeliranje, če hočemo zmanjšati število napak. V doktorski nalogi predstavljamo zasnovo sistema, ki ob običajnih n-gramskih besednih jezikovnih modelih uporablja tudi modele, ki vključujejo informacije o besedni vrsti in slovničnih kategorijah prepoznanih besed. Imenujemo jih morfološki modeli. Razvili smo algoritem, ki na osnovi rezultatov perpleksnosti na razvojni množici določa najprimernejšo strukturo takšnih modelov glede na besedne vrste konteksta besede, ki jo ocenjujemo. Pravimo, da imajo modeli kontekstno odvisno strukturo. Implementirali smo jih kot faktorizirane jezikovne modele. V teh modelih se soočamo z veliko množico različnih možnih kontekstov besede in za vsak kontekst gradimo strukturo modelov ločeno. Pri tem lahko uporabimo le majhen del učne množice. Zato prihaja tudi tukaj do pomanjkanja učnih podatkov, kljub temu da imamo manjše zahteve po velikosti učne množice. Zato smo razvili pristope združevanja različnih kontekstov. Zaradi velikega števila možnih kontekstov in veliko različnih možnosti struktur modelov smo razvili tudi pristope za omejeno iskanje možnih struktur modelov na podlagi postopne gradnje njihovih struktur in sprotnega ocenjevanja. Sistem razpoznavanja je zasnovan v obliki dvoprehodnega algoritma, kjer v drugem prehodu uporabljamo v okviru doktorske disertacije razvite modele. Razvili smo tudi postopek za hitro optimizacijo uteži modelov in postopek dinamičnega uteževanja glede na kontekst besede. Uspešnost razpoznavanja z razvitimi modeli in brez njih smo testirali na slovenski govorni bazi Broadcast News. Ključne besede: avtomatsko razpoznavanje govora z velikim slovarjem, jezikovno modeliranje, faktorizirani jezikovni modeli, perpleksnost, oblikoskladenjske oznake, dvoprehodni iskalni algoritmi Objavljeno v DKUM: 18.05.2015; Ogledov: 2285; Prenosov: 180 Celotno besedilo (3,68 MB) |
4. Algoritmi za reševanje treh osnovnih problemov prikritih markovskih modelovGregor Donaj, 2011, diplomsko delo Opis: V diplomski nalogi se obravnavajo prikriti markovski modeli, ki se v praksi uporabljajo predvsem na področju razpoznavanja govora. Opisani so osnovni pojmi modelov in trije osnovni z njimi povezani problemi: problem ocenjevanja, problem dekodiranja in problem učenja. Opisane so metode za reševanje teh problemov za diskretne in zvezne prikrite markovske modele.
Na kratko je opisana tudi uporaba prikritih markovskih modelov v razpoznavanju govora na primeru enostavne aplikacije razpoznavanja izoliranih besed z majhnim slovarjem. Ključne besede: prikriti markovski modeli, algoritem naprej, algoritem nazaj, Viterbijev algoritem, Baum-Welchev algoritem, Viterbijevo učenje, avtomatsko razpoznavanje govora Objavljeno v DKUM: 27.06.2011; Ogledov: 2707; Prenosov: 160 Celotno besedilo (573,75 KB) |
5. |
6. |
7. Segmentacija in grozdenje govorcev za sisteme avtomatskega razpoznavanja spontanega govoraMatej Grašič, 2010, doktorska disertacija Opis: V doktorski disertaciji obravnavamo problem segmentacije in grozdenja govorcev znotraj pogovornih, radijskih in televizijskih oddaj za sisteme avtomatskega razpoznavanja spontanega govora. Cilj predstavljene doktorske disertacije je definicija, implementacija in vrednotenje uspešnosti novega postopka za segmentacijo in grozdenje govorcev (diarizacijo govorcev).
V okviru disertacije smo najprej realizirali referenčni online sistem za diarizacijo govorcev, ki temelji na postopku Bayesovega informacijskega kriterija (ang. »Bayesian Information Criterion« - BIC). Za referenčni sistem smo nato definirali akustične značilke z boljšo razločljivostjo govorcev v akustičnem prostoru. Nato smo dodali v postopek segmentacije statistični kriterij, kjer smo za normalizacijo rezultata kriterija uporabili univerzalni model govorca (ang. »Universal Background Model« - UBM). Ta postopek je predvsem uporaben v primerih, ko je akustične informacije znotraj segmentov premalo, da bi lahko zgradili popoln model govorca. V doktorski disertaciji smo vrednotili dva statistična kriterija in sicer razmerje križne verjetnosti (ang. »Cross Likelihood Ratio« - CLR) in normalizirano razmerje križne verjetnosti (ang. »Normalized Cross Likelihood Ratio« - NCLR). Oba kriterija izvirata s področja verifikacije govorcev, pri čemer je bila pokazana boljša uspešnost kriterija NCLR. V postopku segmentacije smo statistični kriterij uporabili kot dodatni pogoj, s katerim smo lahko izločili nepravilne prehode govorcev. Po določitvi najboljšega statističnega kriterija za področje segmentacije smo podoben pristop uporabili tudi za grozdenje. V primeru grozdenja smo kriterij BIC iz osnovnega sistema zamenjali s statističnim kriterijem za določitev grozdov. Pri tem smo vpeljali modeliranje govorca z več grozdi. Na tak način smo zajeli spreminjanje glasu govorca v posnetku. Na koncu smo optimirali celoten sistem z normalizacijo rezultata izbranega kriterija z referenčno vrednostjo kriterija; postopek je olajšal izbiro pragovne vrednosti ter izboljšal uspešnost. Prav tako smo izboljšali pravilno zaznavo kratkih segmentov govorca. To smo izvedli z adaptacijo statističnega kriterija glede na dolžino okna analize, kar je izboljšalo linearnost kriterija v primerih kratkega okna analize.
V zadnji fazi smo izvedli končno ocenjevanje uspešnosti uporabljenih segmentacijskih algoritmov. Oceno uspešnosti predlaganega online sistema za diarizacijo govorcev smo izvedli na osnovi primerjave z osnovnim sistemom za diarizacijo govorcev, temelječim na postopku BIC. V drugi fazi smo primerjavo razširili na offline sisteme, kjer smo uporabili prosto dostopni offline diarizacijski sistem mClust .
Za gradnjo univerzalnega modela splošnega govorca ter za določitev optimalnih vrednosti parametrov segmentacijskih postopkov smo uporabili učni del slovenske baze BNSI Broadcast News. Vrednotenje online in offline postopkov smo opravili na testnem delu slovenske in angleške govorne baze Broadcast News. Ključne besede: segmentacija govorcev, grozdenje govorcev, online diarizacija govorcev, avtomatsko razpoznavanje spontanega govora, procesiranje govornega signala, akustične značilke, statistični kriteriji, razpoznavanje govorcev Objavljeno v DKUM: 01.07.2010; Ogledov: 3168; Prenosov: 270 Celotno besedilo (1,75 MB) |
8. AKUSTIČNA SEGMENTACIJA ZVOČNIH SIGNALOV V DOMENI BROADCAST NEWSMarko Kos, 2010, doktorska disertacija Opis: V doktorski disertaciji obravnavamo problematiko klasifikacije in segmentacije akustičnih signalov v domeni radijskih vsebin in televizijskih informativnih oddaj. Cilj predstavljene doktorske disertacije je zasnovati sistem za online akustično segmentacijo, ki bo podpiral tri vrste akustične segmentacije. To so: segmentacija govor/negovor (kjer smo velik poudarek dali segmentaciji govor/glasba, saj predstavlja glasba v domeni broadcast news večino negovornega materiala), segmentacija po spolu govorcev in segmentacija po pasovni širini signala.
Za vsako vrsto akustične segmentacije, ki jo obravnavamo v doktorski nalogi, smo analizirali diskriminatorne sposobnosti nekaterih značilk, kako uspešne so te značilke pri razločevanju med posameznimi akustičnimi razredi. Za segmentacijo govor/negovor smo predlagali tudi nov vektor značilk VEFB (varianca energije filtrske banke). Značilke VEFB smo predlagali kot uspešen diskriminator za razločevanje predvsem med govorom in peto glasbo, izkazale pa so se tudi kot dober diskriminator med govorom in negovorom na splošno. Za analizo diskriminatornih sposobnosti značilk za razločevanje govornega in negovornega akustičnega razreda smo uporabili slovensko bazo BNSI Broadcast News, za analizo diskriminatornih sposobnosti razločevanja med govorom in glasbo pa smo uporabili bazo radijskih posnetkov. Za segmentacijo po spolu govorcev smo analizirali diskriminatorne sposobnosti značilk za razločevanje med moškimi govorci in ženskimi govorkami. Ker osnovna harmonska frekvenca ni zanesljiv diskriminator med moškimi in ženskimi glasovi, ob tem pa je sam postopek izločanja osnovne harmonske komponente občutljiv na slabše akustične razmere (šum, popačenje), smo razločevanje med moškimi in ženskimi glasovi izvedli s splošnimi akustičnimi značilkami. Značilke MFCC (mel-frekvenčni kepstralni koeficienti) so se v preteklosti že izkazale kot dober diskriminator med moškimi govorci in ženskimi govorkami. Da bi zmanjšali vpliv kratkočasovnih značilnosti govora in bolj poudarili splošne značilnosti govorca, smo izračunavali povprečne vrednosti značilk. Na ta način nam je uspelo poudariti tudi razlike med moškimi govorci in ženskimi govorkami, kar je prispevalo k večji diskriminatorni sposobnosti značilk. Za segmentacijo po pasovni širini signala smo prav tako analizirali diskriminatorne sposobnosti nekaterih splošnih akustičnih značilk in nekaterih bolj specifičnih značilk. Ob tem smo predlagali tudi tri nove značilke za razločevanje med širokopasovnim studijskim govorom in ozkopasovnim telefonskim govorom, med katerimi se je kot najboljša izkazala značilka PMSU (povprečna vrednost modificiranega spektralnega upada). Ob značilki PMSU smo predlagali še značilki VPVFB (varianca povprečne vrednosti frekvenčnih binov) in VEVF (varianca energije višjih frekvenc). Značilki PMSU in VEVF sta se obnesli kot dober diskriminator med studijskim in telefonskim govorom, še posebej značilka PMSU, ki je dosegla dovolj dober rezultat, da bi jo lahko uporabili kot samostojni diskriminator. Zaradi enostavnosti izračunavanja je še posebej primerna za aplikacije, kjer sta pomnilnik in procesorska moč omejena. Ker ima značilka eno samo vrednost, lahko za klasifikacijo posameznih okvirjev uporabimo kar pragovni klasifikator, ki je zelo preprost in je prav tako primeren za enostavne sisteme in aplikacije.
Na osnovi analiz diskriminatornih sposobnosti značilk za posamezne vrste akustične segmentacije smo zasnovali zgradbo sistema za online akustično segmentacijo. Znotraj modula za segmentacijo smo predlagali nov pristop k združevanju posameznih okvirjev v večje homogene segmente. Sistem temelji na uporabi dveh ločenih števcev okvirjev posameznih akustičnih razredov ter pravil segmentacije. Pravila segmentacije določajo minimalne čase trajanja segmentov posameznih akustičnih razredov. Minimalni časi trajanja posameznih akustičnih segmentov so načeloma odvisni od domene. Za bazo BNSI in bazo radijskih posnetkov smo jih ocenili s pomočj Ključne besede: akustična segmentacija, akustična klasifikacija, segmentacija govor/negovor, segmentacija govor/glasba, segmentacija po spolu govorca, segmentacija po pasovni širini signala, online segmentacija, procesiranje govora, avtomatsko razpoznavanje govora Objavljeno v DKUM: 01.07.2010; Ogledov: 3206; Prenosov: 308 Celotno besedilo (6,79 MB) |
9. |
10. |