| | SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Izpis gradiva Pomoč

Naslov:The OpenScience Slovenia metadata dataset
Avtorji:ID Borovič, Mladen (Avtor)
ID Ferme, Marko (Avtor)
ID Brezovnik, Janez (Avtor)
ID Majninger, Sandi (Avtor)
ID Bregant, Albin (Avtor)
ID Hrovat, Goran (Avtor)
ID Ojsteršek, Milan (Avtor)
Datoteke:.pdf 1-s2.0-S2352340919312971-main.pdf (187,50 KB)
MD5: 96124625CAF8FA1FA4748950BA2D1379
Opis: Podatkovni članek
 
URL https://hdl.handle.net/20.500.12556/DKUM-92889
Opis: Raziskovalni podatki so dosegljivi v digitalnem objektu na DKUM.
 
URL https://doi.org/10.17632/7wh9xvvmgk.1
Opis: Raziskovalni podatki so dosegljivi v digitalnem objektu na Mendeley.
 
Jezik:Angleški jezik
Vrsta gradiva:Neznano
Tipologija:1.03 - Drugi znanstveni članki
Organizacija:FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Opis:The OpenScience Slovenia metadata dataset contains metadata entries for Slovenian public domain academic documents which include undergraduate and postgraduate theses, research and professional articles, along with other academic document types. The data within the dataset was collected as a part of the establishment of the Slovenian Open-Access Infrastructure which defined a unified document collection process and cataloguing for universities in Slovenia within the infrastructure repositories. The data was collected from several already established but separate library systems in Slovenia and merged into a single metadata scheme using metadata deduplication and merging techniques. It consists of text and numerical fields, representing attributes that describe documents. These attributes include document titles, keywords, abstracts, typologies, authors, issue years and other identifiers such as URL and UDC. The potential of this dataset lies especially in text mining and text classification tasks and can also be used in development or benchmarking of content-based recommender systems on real-world data.
Ključne besede:metadata, real world data, text data, text mining, text identification, natural language processing
Status publikacije:Objavljeno
Verzija publikacije:Objavljena publikacija
Datum objave:01.02.2020
Leto izida:2020
Št. strani:str. 1-5
Številčenje:Vol. 28
PID:20.500.12556/DKUM-92888 Novo okno
UDK:004.4
COBISS.SI-ID:23110934 Novo okno
DOI:10.1016/j.dib.2019.104942 Novo okno
ISSN pri članku:2352-3409
Datum objave v DKUM:22.05.2025
Število ogledov:0
Število prenosov:8
Metapodatki:XML DC-XML DC-RDF
Področja:Ostalo
:
Kopiraj citat
  
Skupna ocena:(0 glasov)
Vaša ocena:Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
Objavi na:Bookmark and Share


Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Gradivo je del revije

Naslov:Data in brief
Založnik:Elsevier
ISSN:2352-3409
COBISS.SI-ID:32117977 Novo okno

Licence

Licenca:CC BY-NC-ND 4.0, Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by-nc-nd/4.0/deed.sl
Opis:Najbolj omejujoča licenca Creative Commons. Uporabniki lahko prenesejo in delijo delo v nekomercialne namene in ga ne smejo uporabiti za nobene druge namene.

Sekundarni jezik

Jezik:Slovenski jezik
Opis:Nabor metapodatkov OpenScience Slovenija vsebuje metapodatkovne vnose za slovenske javno dostopne akademske dokumente, ki vključujejo dodiplomska in podiplomska dela, raziskovalne in strokovne članke ter druge vrste akademskih dokumentov. Podatki v podatkovnem nizu so bili zbrani v okviru vzpostavitve slovenske infrastrukture odprtega dostopa, ki je opredelila enoten postopek zbiranja in katalogizacije dokumentov za univerze v Sloveniji v okviru infrastrukturnih repozitorijev. Podatki so bili zbrani iz več že vzpostavljenih, vendar ločenih knjižničnih sistemov v Sloveniji in združeni v enotno metapodatkovno shemo z uporabo tehnik deduplikacije in združevanja metapodatkov. Sestavljajo jih besedilna in številčna polja, ki predstavljajo atribute, ki opisujejo dokumente. Ti atributi vključujejo naslove dokumentov, ključne besede, povzetke, tipologije, avtorje, letnice izdaje in druge identifikatorje, kot sta URL in UDC. Potencial tega nabora podatkov je zlasti v nalogah rudarjenja po besedilu in razvrščanja besedil, uporablja pa se lahko tudi pri razvoju ali primerjalni analizi priporočilnih sistemov, ki temeljijo na vsebini, na realnih podatkih.
Ključne besede:meta podatki, realni podatki, identifikacija teksta


Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)
0 - 0 / 0
 
Ni komentarjev!

Nazaj
Logotipi partnerjev Univerza v Mariboru Univerza v Ljubljani Univerza na Primorskem Univerza v Novi Gorici