| | SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Iskanje po katalogu digitalne knjižnice Pomoč

Iskalni niz: išči po
išči po
išči po
išči po
* po starem in bolonjskem študiju

Opcije:
  Ponastavi


1 - 7 / 7
Na začetekNa prejšnjo stran1Na naslednjo stranNa konec
1.
2.
3.
4.
AKUSTIČNA SEGMENTACIJA ZVOČNIH SIGNALOV V DOMENI BROADCAST NEWS
Marko Kos, 2010, doktorska disertacija

Opis: V doktorski disertaciji obravnavamo problematiko klasifikacije in segmentacije akustičnih signalov v domeni radijskih vsebin in televizijskih informativnih oddaj. Cilj predstavljene doktorske disertacije je zasnovati sistem za online akustično segmentacijo, ki bo podpiral tri vrste akustične segmentacije. To so: segmentacija govor/negovor (kjer smo velik poudarek dali segmentaciji govor/glasba, saj predstavlja glasba v domeni broadcast news večino negovornega materiala), segmentacija po spolu govorcev in segmentacija po pasovni širini signala. Za vsako vrsto akustične segmentacije, ki jo obravnavamo v doktorski nalogi, smo analizirali diskriminatorne sposobnosti nekaterih značilk, kako uspešne so te značilke pri razločevanju med posameznimi akustičnimi razredi. Za segmentacijo govor/negovor smo predlagali tudi nov vektor značilk VEFB (varianca energije filtrske banke). Značilke VEFB smo predlagali kot uspešen diskriminator za razločevanje predvsem med govorom in peto glasbo, izkazale pa so se tudi kot dober diskriminator med govorom in negovorom na splošno. Za analizo diskriminatornih sposobnosti značilk za razločevanje govornega in negovornega akustičnega razreda smo uporabili slovensko bazo BNSI Broadcast News, za analizo diskriminatornih sposobnosti razločevanja med govorom in glasbo pa smo uporabili bazo radijskih posnetkov. Za segmentacijo po spolu govorcev smo analizirali diskriminatorne sposobnosti značilk za razločevanje med moškimi govorci in ženskimi govorkami. Ker osnovna harmonska frekvenca ni zanesljiv diskriminator med moškimi in ženskimi glasovi, ob tem pa je sam postopek izločanja osnovne harmonske komponente občutljiv na slabše akustične razmere (šum, popačenje), smo razločevanje med moškimi in ženskimi glasovi izvedli s splošnimi akustičnimi značilkami. Značilke MFCC (mel-frekvenčni kepstralni koeficienti) so se v preteklosti že izkazale kot dober diskriminator med moškimi govorci in ženskimi govorkami. Da bi zmanjšali vpliv kratkočasovnih značilnosti govora in bolj poudarili splošne značilnosti govorca, smo izračunavali povprečne vrednosti značilk. Na ta način nam je uspelo poudariti tudi razlike med moškimi govorci in ženskimi govorkami, kar je prispevalo k večji diskriminatorni sposobnosti značilk. Za segmentacijo po pasovni širini signala smo prav tako analizirali diskriminatorne sposobnosti nekaterih splošnih akustičnih značilk in nekaterih bolj specifičnih značilk. Ob tem smo predlagali tudi tri nove značilke za razločevanje med širokopasovnim studijskim govorom in ozkopasovnim telefonskim govorom, med katerimi se je kot najboljša izkazala značilka PMSU (povprečna vrednost modificiranega spektralnega upada). Ob značilki PMSU smo predlagali še značilki VPVFB (varianca povprečne vrednosti frekvenčnih binov) in VEVF (varianca energije višjih frekvenc). Značilki PMSU in VEVF sta se obnesli kot dober diskriminator med studijskim in telefonskim govorom, še posebej značilka PMSU, ki je dosegla dovolj dober rezultat, da bi jo lahko uporabili kot samostojni diskriminator. Zaradi enostavnosti izračunavanja je še posebej primerna za aplikacije, kjer sta pomnilnik in procesorska moč omejena. Ker ima značilka eno samo vrednost, lahko za klasifikacijo posameznih okvirjev uporabimo kar pragovni klasifikator, ki je zelo preprost in je prav tako primeren za enostavne sisteme in aplikacije. Na osnovi analiz diskriminatornih sposobnosti značilk za posamezne vrste akustične segmentacije smo zasnovali zgradbo sistema za online akustično segmentacijo. Znotraj modula za segmentacijo smo predlagali nov pristop k združevanju posameznih okvirjev v večje homogene segmente. Sistem temelji na uporabi dveh ločenih števcev okvirjev posameznih akustičnih razredov ter pravil segmentacije. Pravila segmentacije določajo minimalne čase trajanja segmentov posameznih akustičnih razredov. Minimalni časi trajanja posameznih akustičnih segmentov so načeloma odvisni od domene. Za bazo BNSI in bazo radijskih posnetkov smo jih ocenili s pomočj
Ključne besede: akustična segmentacija, akustična klasifikacija, segmentacija govor/negovor, segmentacija govor/glasba, segmentacija po spolu govorca, segmentacija po pasovni širini signala, online segmentacija, procesiranje govora, avtomatsko razpoznavanje govora
Objavljeno: 01.07.2010; Ogledov: 2155; Prenosov: 181
.pdf Celotno besedilo (6,79 MB)

5.
Segmentacija in grozdenje govorcev za sisteme avtomatskega razpoznavanja spontanega govora
Matej Grašič, 2010, doktorska disertacija

Opis: V doktorski disertaciji obravnavamo problem segmentacije in grozdenja govorcev znotraj pogovornih, radijskih in televizijskih oddaj za sisteme avtomatskega razpoznavanja spontanega govora. Cilj predstavljene doktorske disertacije je definicija, implementacija in vrednotenje uspešnosti novega postopka za segmentacijo in grozdenje govorcev (diarizacijo govorcev). V okviru disertacije smo najprej realizirali referenčni online sistem za diarizacijo govorcev, ki temelji na postopku Bayesovega informacijskega kriterija (ang. »Bayesian Information Criterion« - BIC). Za referenčni sistem smo nato definirali akustične značilke z boljšo razločljivostjo govorcev v akustičnem prostoru. Nato smo dodali v postopek segmentacije statistični kriterij, kjer smo za normalizacijo rezultata kriterija uporabili univerzalni model govorca (ang. »Universal Background Model« - UBM). Ta postopek je predvsem uporaben v primerih, ko je akustične informacije znotraj segmentov premalo, da bi lahko zgradili popoln model govorca. V doktorski disertaciji smo vrednotili dva statistična kriterija in sicer razmerje križne verjetnosti (ang. »Cross Likelihood Ratio« - CLR) in normalizirano razmerje križne verjetnosti (ang. »Normalized Cross Likelihood Ratio« - NCLR). Oba kriterija izvirata s področja verifikacije govorcev, pri čemer je bila pokazana boljša uspešnost kriterija NCLR. V postopku segmentacije smo statistični kriterij uporabili kot dodatni pogoj, s katerim smo lahko izločili nepravilne prehode govorcev. Po določitvi najboljšega statističnega kriterija za področje segmentacije smo podoben pristop uporabili tudi za grozdenje. V primeru grozdenja smo kriterij BIC iz osnovnega sistema zamenjali s statističnim kriterijem za določitev grozdov. Pri tem smo vpeljali modeliranje govorca z več grozdi. Na tak način smo zajeli spreminjanje glasu govorca v posnetku. Na koncu smo optimirali celoten sistem z normalizacijo rezultata izbranega kriterija z referenčno vrednostjo kriterija; postopek je olajšal izbiro pragovne vrednosti ter izboljšal uspešnost. Prav tako smo izboljšali pravilno zaznavo kratkih segmentov govorca. To smo izvedli z adaptacijo statističnega kriterija glede na dolžino okna analize, kar je izboljšalo linearnost kriterija v primerih kratkega okna analize. V zadnji fazi smo izvedli končno ocenjevanje uspešnosti uporabljenih segmentacijskih algoritmov. Oceno uspešnosti predlaganega online sistema za diarizacijo govorcev smo izvedli na osnovi primerjave z osnovnim sistemom za diarizacijo govorcev, temelječim na postopku BIC. V drugi fazi smo primerjavo razširili na offline sisteme, kjer smo uporabili prosto dostopni offline diarizacijski sistem mClust . Za gradnjo univerzalnega modela splošnega govorca ter za določitev optimalnih vrednosti parametrov segmentacijskih postopkov smo uporabili učni del slovenske baze BNSI Broadcast News. Vrednotenje online in offline postopkov smo opravili na testnem delu slovenske in angleške govorne baze Broadcast News.
Ključne besede: segmentacija govorcev, grozdenje govorcev, online diarizacija govorcev, avtomatsko razpoznavanje spontanega govora, procesiranje govornega signala, akustične značilke, statistični kriteriji, razpoznavanje govorcev
Objavljeno: 01.07.2010; Ogledov: 2126; Prenosov: 153
.pdf Celotno besedilo (1,75 MB)

6.
VREDNOTENJE KAKOVOSTI VEČMODALNIH STORITEV V SODOBNIH TELEKOMUNIKACIJSKIH SISTEMIH
Tomaž Lovrenčič, 2014, doktorska disertacija

Opis: V doktorski disertaciji obravnavamo problematiko vrednotenja kakovosti večmodalnih storitev v sodobnih telekomunikacijskih sistemih. Pri tem smo izpostavili degradacije, ki vplivajo na uporabniško kakovost in jih glede na izvor razdelimo v izvorne in omrežne. Njihov vpliv lahko izmerimo s subjektivnimi ali z objektivnimi metodami. Ker so večmodalne storitve lahko obojesmerni sistemi, je potreben nadzor degradacij na vhodnih in izhodnih modalnostih sistema. Pri tem prihaja do medmodalnega učinka kot posledice karakteristik človeške zaznave. Osredotočenost uporabnika na polja interesa (ROI) daje degradacijam v teh območjih večji vpliv, kar lahko izkoristimo za porazdeljeno vrednotenje. Cilj disertacije je predlagati model za vrednotenje kakovosti večmodalnih storitev in izdelati vzorčen koncept evalvatorja, ki bo upošteval omenjena dejstva. Za dosego cilja smo nalogo razdelili na tri področja: v prvem smo določili vpliv degradacij na vhodno modalnost, v drugem smo zgradili primerno večmodalno bazo HD-posnetkov in naredili subjektivno in objektivno vrednotenje izhodne modalnosti, v tretjem pa predlagali nov model večmodalnega porazdeljenega vrednotenja kakovosti. Pri vrednotenju kakovosti vhodne modalnosti sistema smo analizirali storitev IVR s funkcijo razpoznavanja govora, kjer smo na podlagi meritev povprečne objektivne ocene kakovosti (objMOS) iz govorne baze SpeechDat(II) ovrednotili vpliv degradacije transkodiranja in izgube paketov (PL). Govorni kodeki so pri tem pokazali precejšnja odstopanja, tudi med različnimi konfiguracijami istih govornih kodekov. Govorna izguba je degradirala signal do te mere, da je bila potrebna uporaba robustnejše modalnosti v obliki DTMF-izbiranja. Na podlagi analize smo predlagali klasifikator vhodne modalnosti na osnovi Gaussovih modelov (GMM). V učni fazi smo analizirali različne konfiguracije klasifikatorja. Testna faza je pokazala uspešno delovanje klasifikatorja za izbiro vhodne modalnosti v različnih scenarijih izgube paketov. Pri raziskavi vpliva degradacij na izhodno modalnost smo izdelali večmodalno bazo posnetkov s štirimi vrstami vsebine. Baza je vsebovala posnetke z avdiom (A, kodek AAC, 48kbps), videom (V, kodek H.264/AVC, 1920x1080) in avdio-videom (AV) pri različnih scenarijih izgube paketov. Izvedli smo subjektivno testiranje z 20 osebami na 240 posnetkih, pri katerih smo dobili povprečne subjektivne ocene kakovosti (subMOS), kar je služilo za referenco objektivnemu vrednotenju. Objektivno vrednotenje je potekalo s standardom PESQ, pri video modalnosti pa smo iz nabora 26 slikovnih metrik izbrali tisto z najboljšo korelacijo s subjektivno oceno: slikovno metriko NQM. Na podlagi rezultatov smo predlagali model vrednotenja kakovosti večmodalne storitve, ki je upošteval tip modalnosti, tip scene, količino degradacij in enomodalne ocene objMOS. Korelacija na testnem naboru je bila 0,892. Pri analizi osredotočenosti uporabnika storitve na ROI in možnosti porazdeljenega vrednotenja smo uporabili detektor vizualne razpoznave strukture obraza, ki temelji na algoritmu Viola-Jones s kaskadnimi klasifikatorji s šibkimi Haarovim podobnimi značilkami, ki smo ga ustrezno modificirali, da smo dosegli čim boljšo detekcijo obraza. Z analizo smo določili pristop porazdeljenega vrednotenja vizualne informacije z enostavnim vrednotenjem ozadja (ne-ROI) z metriko PSNR in kompleksnejšim vrednotenjem obraza (ROI) z metriko NQM. Pomembnost porazdeljenega vrednotenja kakovosti storitev smo potrdili s subjektivnimi testi.
Ključne besede: kakovost storitev, večmodalne vsebine, kakovost videa, kakovost govora, procesiranje in analiza slik, analiza avdia, klasifikacija
Objavljeno: 28.01.2015; Ogledov: 1154; Prenosov: 103
.pdf Celotno besedilo (8,05 MB)

7.
Iskanje izvedeno v 0.17 sek.
Na vrh
Logotipi partnerjev Univerza v Mariboru Univerza v Ljubljani Univerza na Primorskem Univerza v Novi Gorici