1. |
2. Strategies for managing time and costs in speech corpus creation : insights from the Slovenian ARTUR corpusDarinka Verdonik, Andreja Bizjak, Andrej Žgank, Mirjam Sepesy Maučec, Mitja Trojar, Jerneja Žganec Gros, Marko Bajec, Iztok Lebar Bajec, Simon Dobrišek, 2024, izvirni znanstveni članek Opis: Parliamentary debates represent an essential part of democratic discourse and provide insights into various socio-demographic and linguistic phenomena - parliamentary corpora, which contain transcripts of parliamentary debates and extensive metadata, are an important resource for parliamentary discourse analysis and other research areas. This paper presents the Slovenian parliamentary corpus siParl, the latest version of which contains transcripts of plenary sessions and other legislative bodies of the Assembly of the Republic of Slovenia from 1990 to 2022, comprising more than 1 million speeches and 210 million words. We outline the development history of the corpus and also mention other initiatives that have been influenced by siParl (such as the Parla-CLARIN encoding and the ParlaMint corpora of European parliaments), present the corpus creation process, ranging from the initial data collection to the structural development and encoding of the corpus, and given the growing influence of the ParlaMint corpora, compare siParl with the Slovenian ParlaMint-SI corpus. Finally, we discuss updates for the next version as well as the long-term development and enrichment of the siParl corpus. Ključne besede: recording speech, transcribing speech, transcription guidelines, Less-resourced language Objavljeno v DKUM: 04.02.2025; Ogledov: 0; Prenosov: 8
Celotno besedilo (1,09 MB) Gradivo ima več datotek! Več... |
3. Navodila za snemanje za portal Govorjena slovenščinaDarinka Verdonik, Andreja Bizjak, Gregor Donaj, Boštjan Makarovič, Cristina Contero Almagro, 2025, elaborat, predštudija, študija Ključne besede: portal Govorjena slovenščina, snemanje govora Objavljeno v DKUM: 04.02.2025; Ogledov: 0; Prenosov: 5
Celotno besedilo (307,37 KB) |
4. Sequence-to-Sequence models and their evaluation for spoken language normalization of SlovenianMirjam Sepesy Maučec, Darinka Verdonik, Gregor Donaj, 2024, izvirni znanstveni članek Ključne besede: low-resource language, applications, spoken language, normalization, character unit, subword unit, statistical model, long short-term memory, transformer, error analysis Objavljeno v DKUM: 31.01.2025; Ogledov: 0; Prenosov: 3
Celotno besedilo (437,99 KB) |
5. Reprezentacija digitalne zasvojenosti na RTV Slovenija in Radio-televiziji SrbijeBojana Simović, 2024, magistrsko delo Opis: Digitalna zasvojenost je vse pogostejši problem med mladimi v današnji družbi in se nanaša na zasvojenost, nastalo zaradi določenega vedenja. V teoretičnem delu magistrskega dela smo se osredotočili na opredelitev pojmov zasvojenost in digitalna zasvojenost, opisali podvrste, oblike, lastnosti in posledice ter predstavili vzroke za njihov nastanek. Nadaljevali smo s pomenom medijev v sodobni družbi, opisali medijsko agendo, etiko, uokvirjanje, zvrsti in žanre ter podrobno predstavili medijsko vlogo pri ozaveščanju o digitalni zasvojenosti. V empiričnem delu smo zajeli analizo vsebin na javnih radiotelevizijskih servisih v Sloveniji in Srbiji, namenjenih ozaveščanju o digitalni zasvojenosti, z vidika obsega vsebin, medijskih zvrsti in žanrov, obravnavanih tematik in odnosa, ki ga servisa zavzameta. Na koncu smo še primerjali poročanje o digitalni zasvojenosti obeh javnih servisov. Ključne besede: digitalna zasvojenost, digitalne tehnologije, javni medijski servisi Objavljeno v DKUM: 19.09.2024; Ogledov: 0; Prenosov: 42
Celotno besedilo (3,40 MB) |
6. Primarne kategorije dialoških dejanjDarinka Verdonik, 2023, izvirni znanstveni članek Opis: Prispevek se ukvarja s problematiko označevanja dialoških dejanj v korpusih. Obstoječe generične sheme dialoških dejanj kažejo vrsto pomanjkljivosti, zato so v prispevku primarne kategorije dialoških dejanj definirane na novo ter evalvirane z označevanjem testnega gradiva, ki sta ga izvedla neodvisna označevalca. Rezultati potrdijo ustreznost definicij za empirično rabo, pokažejo pa tudi dvoumne in mejne rabe, ki jih je treba nasloviti v prihodnje. Ključne besede: dialoška dejanja, govorna dejanja, korpusna pragmatika, označevanje korpusa Objavljeno v DKUM: 24.05.2024; Ogledov: 219; Prenosov: 9
Celotno besedilo (437,40 KB) Gradivo ima več datotek! Več... |
7. Understanding conversational interaction in multiparty conversations: the EVA CorpusIzidor Mlakar, Darinka Verdonik, Simona Majhenič, Matej Rojc, 2023, izvirni znanstveni članek Ključne besede: corpora and language resources, speech corpus, multimodal corpus, pragmatics, conversational intelligence Objavljeno v DKUM: 10.04.2024; Ogledov: 285; Prenosov: 10
Celotno besedilo (2,08 MB) Gradivo ima več datotek! Več... |
8. |
9. |
10. Izbor povedi za govorno bazo Artur v projektu Razvoj slovenščine v digitalnem okolju : projektno poročilo DS2-2.1.1Jerneja Žganec Gros, Boštjan Vesnicer, Aleš Mihelič, Mitja Trojar, Simon Dobrišek, Andreja Bizjak, Darinka Verdonik, 2023, elaborat, predštudija, študija Ključne besede: govorna baza Artur, projekt RSDO Objavljeno v DKUM: 22.08.2023; Ogledov: 362; Prenosov: 14
Celotno besedilo (374,74 KB) |