| | SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Iskanje po katalogu digitalne knjižnice Pomoč

Iskalni niz: išči po
išči po
išči po
išči po
* po starem in bolonjskem študiju

Opcije:
  Ponastavi


1 - 1 / 1
Na začetekNa prejšnjo stran1Na naslednjo stranNa konec
1.
AKUSTIČNA SEGMENTACIJA ZVOČNIH SIGNALOV V DOMENI BROADCAST NEWS
Marko Kos, 2010, doktorska disertacija

Opis: V doktorski disertaciji obravnavamo problematiko klasifikacije in segmentacije akustičnih signalov v domeni radijskih vsebin in televizijskih informativnih oddaj. Cilj predstavljene doktorske disertacije je zasnovati sistem za online akustično segmentacijo, ki bo podpiral tri vrste akustične segmentacije. To so: segmentacija govor/negovor (kjer smo velik poudarek dali segmentaciji govor/glasba, saj predstavlja glasba v domeni broadcast news večino negovornega materiala), segmentacija po spolu govorcev in segmentacija po pasovni širini signala. Za vsako vrsto akustične segmentacije, ki jo obravnavamo v doktorski nalogi, smo analizirali diskriminatorne sposobnosti nekaterih značilk, kako uspešne so te značilke pri razločevanju med posameznimi akustičnimi razredi. Za segmentacijo govor/negovor smo predlagali tudi nov vektor značilk VEFB (varianca energije filtrske banke). Značilke VEFB smo predlagali kot uspešen diskriminator za razločevanje predvsem med govorom in peto glasbo, izkazale pa so se tudi kot dober diskriminator med govorom in negovorom na splošno. Za analizo diskriminatornih sposobnosti značilk za razločevanje govornega in negovornega akustičnega razreda smo uporabili slovensko bazo BNSI Broadcast News, za analizo diskriminatornih sposobnosti razločevanja med govorom in glasbo pa smo uporabili bazo radijskih posnetkov. Za segmentacijo po spolu govorcev smo analizirali diskriminatorne sposobnosti značilk za razločevanje med moškimi govorci in ženskimi govorkami. Ker osnovna harmonska frekvenca ni zanesljiv diskriminator med moškimi in ženskimi glasovi, ob tem pa je sam postopek izločanja osnovne harmonske komponente občutljiv na slabše akustične razmere (šum, popačenje), smo razločevanje med moškimi in ženskimi glasovi izvedli s splošnimi akustičnimi značilkami. Značilke MFCC (mel-frekvenčni kepstralni koeficienti) so se v preteklosti že izkazale kot dober diskriminator med moškimi govorci in ženskimi govorkami. Da bi zmanjšali vpliv kratkočasovnih značilnosti govora in bolj poudarili splošne značilnosti govorca, smo izračunavali povprečne vrednosti značilk. Na ta način nam je uspelo poudariti tudi razlike med moškimi govorci in ženskimi govorkami, kar je prispevalo k večji diskriminatorni sposobnosti značilk. Za segmentacijo po pasovni širini signala smo prav tako analizirali diskriminatorne sposobnosti nekaterih splošnih akustičnih značilk in nekaterih bolj specifičnih značilk. Ob tem smo predlagali tudi tri nove značilke za razločevanje med širokopasovnim studijskim govorom in ozkopasovnim telefonskim govorom, med katerimi se je kot najboljša izkazala značilka PMSU (povprečna vrednost modificiranega spektralnega upada). Ob značilki PMSU smo predlagali še značilki VPVFB (varianca povprečne vrednosti frekvenčnih binov) in VEVF (varianca energije višjih frekvenc). Značilki PMSU in VEVF sta se obnesli kot dober diskriminator med studijskim in telefonskim govorom, še posebej značilka PMSU, ki je dosegla dovolj dober rezultat, da bi jo lahko uporabili kot samostojni diskriminator. Zaradi enostavnosti izračunavanja je še posebej primerna za aplikacije, kjer sta pomnilnik in procesorska moč omejena. Ker ima značilka eno samo vrednost, lahko za klasifikacijo posameznih okvirjev uporabimo kar pragovni klasifikator, ki je zelo preprost in je prav tako primeren za enostavne sisteme in aplikacije. Na osnovi analiz diskriminatornih sposobnosti značilk za posamezne vrste akustične segmentacije smo zasnovali zgradbo sistema za online akustično segmentacijo. Znotraj modula za segmentacijo smo predlagali nov pristop k združevanju posameznih okvirjev v večje homogene segmente. Sistem temelji na uporabi dveh ločenih števcev okvirjev posameznih akustičnih razredov ter pravil segmentacije. Pravila segmentacije določajo minimalne čase trajanja segmentov posameznih akustičnih razredov. Minimalni časi trajanja posameznih akustičnih segmentov so načeloma odvisni od domene. Za bazo BNSI in bazo radijskih posnetkov smo jih ocenili s pomočj
Ključne besede: akustična segmentacija, akustična klasifikacija, segmentacija govor/negovor, segmentacija govor/glasba, segmentacija po spolu govorca, segmentacija po pasovni širini signala, online segmentacija, procesiranje govora, avtomatsko razpoznavanje govora
Objavljeno: 01.07.2010; Ogledov: 2152; Prenosov: 179
.pdf Celotno besedilo (6,79 MB)

Iskanje izvedeno v 0.05 sek.
Na vrh
Logotipi partnerjev Univerza v Mariboru Univerza v Ljubljani Univerza na Primorskem Univerza v Novi Gorici