| | SLO | ENG | Cookies and privacy

Bigger font | Smaller font

Search the digital library catalog Help

Query: search in
search in
search in
search in
* old and bologna study programme

Options:
  Reset


1 - 1 / 1
First pagePrevious page1Next pageLast page
1.
Segmentacija in grozdenje govorcev za sisteme avtomatskega razpoznavanja spontanega govora
Matej Grašič, 2010, dissertation

Abstract: V doktorski disertaciji obravnavamo problem segmentacije in grozdenja govorcev znotraj pogovornih, radijskih in televizijskih oddaj za sisteme avtomatskega razpoznavanja spontanega govora. Cilj predstavljene doktorske disertacije je definicija, implementacija in vrednotenje uspešnosti novega postopka za segmentacijo in grozdenje govorcev (diarizacijo govorcev). V okviru disertacije smo najprej realizirali referenčni online sistem za diarizacijo govorcev, ki temelji na postopku Bayesovega informacijskega kriterija (ang. »Bayesian Information Criterion« - BIC). Za referenčni sistem smo nato definirali akustične značilke z boljšo razločljivostjo govorcev v akustičnem prostoru. Nato smo dodali v postopek segmentacije statistični kriterij, kjer smo za normalizacijo rezultata kriterija uporabili univerzalni model govorca (ang. »Universal Background Model« - UBM). Ta postopek je predvsem uporaben v primerih, ko je akustične informacije znotraj segmentov premalo, da bi lahko zgradili popoln model govorca. V doktorski disertaciji smo vrednotili dva statistična kriterija in sicer razmerje križne verjetnosti (ang. »Cross Likelihood Ratio« - CLR) in normalizirano razmerje križne verjetnosti (ang. »Normalized Cross Likelihood Ratio« - NCLR). Oba kriterija izvirata s področja verifikacije govorcev, pri čemer je bila pokazana boljša uspešnost kriterija NCLR. V postopku segmentacije smo statistični kriterij uporabili kot dodatni pogoj, s katerim smo lahko izločili nepravilne prehode govorcev. Po določitvi najboljšega statističnega kriterija za področje segmentacije smo podoben pristop uporabili tudi za grozdenje. V primeru grozdenja smo kriterij BIC iz osnovnega sistema zamenjali s statističnim kriterijem za določitev grozdov. Pri tem smo vpeljali modeliranje govorca z več grozdi. Na tak način smo zajeli spreminjanje glasu govorca v posnetku. Na koncu smo optimirali celoten sistem z normalizacijo rezultata izbranega kriterija z referenčno vrednostjo kriterija; postopek je olajšal izbiro pragovne vrednosti ter izboljšal uspešnost. Prav tako smo izboljšali pravilno zaznavo kratkih segmentov govorca. To smo izvedli z adaptacijo statističnega kriterija glede na dolžino okna analize, kar je izboljšalo linearnost kriterija v primerih kratkega okna analize. V zadnji fazi smo izvedli končno ocenjevanje uspešnosti uporabljenih segmentacijskih algoritmov. Oceno uspešnosti predlaganega online sistema za diarizacijo govorcev smo izvedli na osnovi primerjave z osnovnim sistemom za diarizacijo govorcev, temelječim na postopku BIC. V drugi fazi smo primerjavo razširili na offline sisteme, kjer smo uporabili prosto dostopni offline diarizacijski sistem mClust . Za gradnjo univerzalnega modela splošnega govorca ter za določitev optimalnih vrednosti parametrov segmentacijskih postopkov smo uporabili učni del slovenske baze BNSI Broadcast News. Vrednotenje online in offline postopkov smo opravili na testnem delu slovenske in angleške govorne baze Broadcast News.
Keywords: segmentacija govorcev, grozdenje govorcev, online diarizacija govorcev, avtomatsko razpoznavanje spontanega govora, procesiranje govornega signala, akustične značilke, statistični kriteriji, razpoznavanje govorcev
Published in DKUM: 01.07.2010; Views: 2730; Downloads: 205
.pdf Full text (1,75 MB)

Search done in 0.01 sec.
Back to top
Logos of partners University of Maribor University of Ljubljana University of Primorska University of Nova Gorica