HUN-REN Csillagászati és Földtudományi Kutatóközpont
Konkoly Thege Miklós Csillagászati Intézet

A KUTATÁSI ADATOK HOZZÁFÉRHETŐSÉGÉRŐL X Holl András

2013. szeptember 25. | Szerző:

Archive

A tudomány fejlődése megköveteli, a technika fejlődése pedig lehetővé teszi a tudományos kommunikáció átalakítását, ezen belül a tudományos adatok hozzáférhetőségének javítását (Holl, 2013). A tudományos kommunikáció jövőjével kapcsolatban érdemes meg

A tudomány fejlődése megköveteli, a technika fejlődése pedig lehetővé teszi a tudományos kommunikáció átalakítását, ezen belül a tudományos adatok hozzáférhetőségének javítását (Holl, 2013). A tudományos kommunikáció jövőjével kapcsolatban érdemes megismerni a FORCE 11 szervezet tevékenységét (URL1). A digitális adatmenedzsment aktuális téma, cikkünkben megpróbálunk ízelítőt adni az ez irányú eredményekből, kezdeményezésekből. Áttekintjük a motivációt és a nehézségeket, bemutatjuk a világszerte szaporodó szabályozási kezdeményezéseket, a tudományos adatok megőrzését és közzétételét vizsgáló különböző tanulmányokat, felméréseket, végül a már létező megoldásokat. Nem törekszünk a kérdés részletes tárgyalására, inkább csak fogódzókat adunk azoknak, akiket a téma érint vagy érdekel.

A tudományos adatok nyilvánossá tételének és hosszú távú megőrzésének számos előnye lehet. A közvetlenebb hasznot a publikációkhoz felhasznált adatok nyilvánosságra hozatala szolgáltatja: ezek lényegesek az eredmények ellenőrzése és a vizsgálatok megismételhetősége szempontjából. További haszon lehet az adatok többszöri felhasználása: gyakran a mérés, az adatgyűjtés eredeti célján túlmenően más vizsgálatokra is használhatóak lennének, ha rendelkezésre állnának. Végül számos olyan eset van, amikor az adatok sokkal jobban használhatóak, amennyiben az adatgyűjtés hosszú távú, megfelelő lefedettséget biztosít, s ez gyakorta különböző adatgyűjtők adatainak használatát, esetleg különböző adatgyűjtési módszerekkel és eszközökkel nyert adatok egységesítését igényli, és megköveteli az adatok hosszú távú megőrzését és hozzáférhetővé tételét. Az utóbbi esetekben, ahol az adatgyűjtést különböző kutatók, esetleg különböző módon végezték, vagy a felhasználó(k) nem azonos(ak) a megfigyelővel, mérést végzővel, az eljárások és az adatok pontos dokumentálása, a megfelelő minőség biztosítása, a szabványos módszerek és formátumok alkalmazása kulcsfontosságú.

A tudományos adatok hozzáférhetőségének követelménye megjelenik az EU 2020 Horizont programjában, az Egyesült Államok kormányzatának Open Access kezdeményezésében (Holdren-memorandum),1 de az OTKA támogatási szabályaiban is. Bár ennek széles körűen eleget tenni valószínűleg csak hosszú távon lehet, a tudománypolitika által megjelölt irány egyértelmű.

A tudományos adatok megosztását és megőrzését a technika: az informatika és az internet jelentősen megkönnyíti - és egyben meg is nehezíti. Ha számadást készítünk majd a ránk maradt és továbbörökítendő adatvagyonról, könnyen lehet, hogy a hetvenes–nyolcvanas–kilencvenes években keletkezett adatok tekintetében hiányt fogunk tapasztalni: a korábbi adatok papírra nyomtatva, üveglemezre felvitt fotografikus emulziókon, mikrofilmeken rendelkezésre állnak majd, a korai digitális adatok lyukszalagjai, mágnesszalagjai viszont már olvashatatlanok lesznek, az adathordozók romlása vagy az olvasóberendezések hiánya miatt. És ahol a biteket sikerül is megmenteni, ott a régi formátumok olvashatóvá tételére kell majd jelentős munkát fordítani.


Az adatok megőrzése és közzététele sokkal összetettebb problémát jelent, mint a publikációké. Számos nemzetközi projekt próbálja a szükséges követelményrendszert, politikákat, szabványokat kialakítani. Az Alliance for Permanent Access (URL3) és a kapcsolódó APARSEN-projekt weblapjai és konferenciái jó tájékozódási pontot kínálnak. Az európai politikák felmérésével foglalkozik a SIM4RDM (URL4), amelyben hazai részről az Nemzeti Információs Infrastruktúra Fejlesztési (NIIF) Intézet is részt vesz. A projekt egyik fontos eredménye az az ajánlás, amelyet a kutatási adatok menedzselésére vonatkozóan tettek közzé.2 Ezek közül a következőt emeljük ki: „A kutatási alapok bátorítsák a kutatókat arra, hogy adatkezelési tervet nyújtsanak be a pályázat részeként, valamint irányozzanak elő forrásokat az adatok kezelésére.” Az adatarchívumok felállításának már szabványa is van: az OAIS (URL6). A publikációs repozitóriumokkal foglalkozó európai OpenAIRE-projekt folytatása, az OpenAIREplus (URL7) már az adatokkal is foglalkozik. Finn, dán, német, egyesült királyságbeli és holland intézmények együttműködéséhez ad keretet a Knowledge Exchange (URL8). A projekt eredményei közül az egyik tanulmány a tudományos adatok scientometriai szempontjaival foglalkozik (The Value of Research Data, URL9). A kutatási adatokra való hivatkozást a DataCite (URL10) által szolgáltatott DOI-azonosítók teszik lehetővé, a hivatkozásokat pedig már gyűjti a Thomson Reuters (Data Citation Index, URL11).

A csillagászat területén a Virtuális Obszervatórium kezdeményezés foglalkozik az adatok újrafelhasználhatóvá tételével. A szervezeti kereteket az International Virtual Observatory Alliance (IVOA, URL12) biztosítja. A kibővített folyóiratok (enhanced journals) tekintetében érdemes a holland EJME-projektet (Enhanced Journals...Made Easy! URL13), és a GreyNet EPP (URL14) projektjét tanulmányozni. Egyes kutatóhelyek – mint az Edinburgh-i Egyetem – már eljutottak arra a fokra, hogy útitervet készítettek a kutatási adatok kezelésének bevezetésére (University of Edinburgh Research Data Management Roadmap, URL15).


A tudományos adatok hozzáférhetővé tételére és megőrzésére sokféle megoldás lehetséges. A nagy, kifejezetten felmérés jellegű, alapvető adatok begyűjtésére szervezett programok esetében szokásos az adatok nyilvánossá tétele. A Hubble Űrtávcső segítségével gyűjtött adatok csak meghatározott ideig maradnak a távcsőidőt elnyert pályázó „birtokában”, azután nyilvános archívumba kerülnek. A „Big Science” esetében nem jelent gondot az adatok megfelelő előkészítése, archiválása és nyilvánossá tétele – erre bőven futja a program költségvetéséből. A finanszírozó, ha egyszer sok pénzt költött egy ilyen programra, általában elő is írja az adatok nyilvánosságra hozását, ezzel a befektetésből származó tudományos haszon maximalizálását. Az említett Hubble Űrtávcső esetében mára több publikáció keletkezik a nyilvános archívum adataiból, mint amennyit az eredeti megfigyelési adatokból írnak maguk a megfigyelők. A részecskefizika területén az LHC (nagy hadronütközető) adatainak megőrzésére szóba került rendszer a DASPOS (URL16).

Nem csupán a „Big Science” keretében keletkeznek adatok. A kis projektek keretében gyűjtött adatok tárolására kínál megoldást a Harvard Egyetemhez köthető Dataverse (URL17). Egy-egy Dataverse repozitórium számos projekt adatainak adhat helyet, és a repozitóriumok hálózatba szerveződnek (Dataverse Network). A projekt az adatok idézhetővé tételét a DOI alkalmazásán túl az adatállomány pontos verzióját azonosító Univerzális Numerikus Ujjlenyomat (Universal Numerical Fingerprint; Altman – King, 2007) alkalmazásával segíti elő.

 

 

A csillagászatban nem csupán a nagy programoknak van lehetőségük az adatok szabványos megosztására. A már említett Virtuális Obszervatórium projekt keretében kifejlesztett, szabadon alkalmazható, nyílt forráskódú szoftverek – mint például a Strasbourgban kifejlesztett Saada – minden obszervatóriumnak lehetőséget adnak adataik megosztására. A szoftver által alkalmazott protokollok mellett az adatformátumok is szabványosak, és rendelkezésre állnak azok a listák – registry a VO terminológiájában –, amelyek felsorolják a világszerte elérhető hasonló szolgáltatásokat. Rendelkezésre állnak olyan információs rendszerek is, mint a szintén strasbourgi Aladin, amelyek képesek adatokat – képeket – átvenni ezektől a szolgáltatóktól. Bár a csillagászatban rendelkezésre állnak ezek a lehetőségek, sokan mégsem használják őket. Az adatok megfelelő tisztítása, dokumentálása ugyanis jelentős teher; a kutatók gyakorta csak annyit végeznek el, amennyi a saját publikációjuk megírásához szükséges, az általános felhasználhatósághoz szükséges többletmunkát már nem vállalják.

A kutatók jelentős része nem szívesen osztja meg adatait, ha ezt nem követelik meg tőle. Aki megkövetelhetné, az a munkáltatója vagy a munkáját támogató kutatási alap lehet. Megkövetelhetik még azok a folyóiratok, ahol publikál – nem annyira az esetleges újrafelhasználást, mint inkább az eredmények igazolását, reprodukálhatóságát szem előtt tartva. Ritkán fordul elő, hogy maga a tudományos folyóirat vállalkozna a cikkhez tartozó adatok tárolására és nyilvánosságra hozatalára. De az internet által kínált lehetőségeket úttörő módon használó kibővített folyóiratok ezt megteszik. Az MTA Csillagászati és Földtudományi Kutatóközpontjának Konkoly Thege Miklós Csillagászati Intézetében  (CsFK CsI) kiadott IBVS (Information Bulletin on Variable Stars) tárolja a cikkekhez tartozó adatokat, és kereshetővé is teszi ezeket.

A hagyományosabb folyóiratok esetében is előfordul egy némileg szerényebb igényű megoldás. Általában a lapok nem hajlandóak annyi ábrát, táblázatot közölni, mint amennyit a szerzők publikálni szeretnének. Régebben egyes folyóiratok kiegészítő folyamokat (Supplement series, Ergänzungshefte) indítottak a nagyobb mennyiségű adat közlésére, manapság pedig előfordul, hogy a nyomtatott változat lehetőségeit már meghaladó táblázatokat csak elektronikus formában közlik. Ugyanez kevésbé fontos ábrákkal is előfordulhat.

Abban az esetben, amikor a folyóirat nem tud helyet adni nagyszámú táblázat vagy ábra elektronikus elhelyezésének, a táblázatos vagy ábra (kép) jellegű adatok elhelyezésére szóba jöhetnek a publikációs repozitóriumok is. Ezek a repozitóriumok többnyire könyvtárakban működnek, és többnyire nem áll rendelkezésre se szakértelem, se technika bonyolult (mondjuk bináris, sokdimenziós, egyedi formátumú) adatok kezelésére. Nagy mennyiségű (gigabyte [GB] -nyinál nagyobb) adat elhelyezésére nem igazán alkalmasak a publikációs repozitóriumok. Viszont egyszerű, ismert, szabványos formátumokban (PDF/A, JPEG) elhelyezett, alapvetően szöveges, táblázat jellegű vagy az értelmezéshez feldolgozó szoftvert nem igénylő képi adatok elhelyezésére megfelelnek. A kívánatos munkamegosztás és munkamenet az lehet, hogy a szerző (talán a beküldött kézirattal együtt) a repozitóriumban elhelyezi a táblázatokat, ábrákat, és az URL-t, az azonosítót közli a szerkesztőséggel, akik továbbadják ezt az információt a cikk bírálóinak. A bírálók a cikkel együtt vizsgálják az adatokat. A cikk elfogadása esetén az újság az olvasókkal is közli az adatok elérhetőségét. Hasonló funkció implementálásán gondolkodunk a REAL (az MTA Könyvtár és Információs Központ az Akadémia kutatóhálózatát is kiszolgáló repozitóriuma) esetében is.

Az adatok megosztását felhő alapú alkalmazások is segíthetik, mint a figshare (URL18). A feltöltött állományok DOI-t kapnak, hosszú távú megőrzésüket a CLOCKSS Archívum (URL19) garantálja. Publikációs repozitóriumokhoz hasonlít a Dryad (URL20), és csak publikációkhoz kapcsolódó adatokat tárol. A holland DANS, a felsőoktatás és kutatás hálózati és digitális archiválási feladatait szolgáló szervezet, adatrepozitóriumuk webes felülete az EASY (URL21). A tárolt adatállományok jelenleg a történelemtudomány, régészet, társadalomtudományok köréből kerülnek ki, valamint tartalmaz térképészeti-kataszteri adatokat is. Az Egyesült Királyságban már évek óta működik, gyűjt és szolgáltat régészeti adatokat az Archaeology Data Service (URL22).

A tudományos publikációk digitális formában való hozzáférhetővé tétele és hosszú távú megőrzése sem könnyen megoldható probléma – de ebben jó úton haladunk a megoldás felé. A tudományos adatok esetében az akadályok nagyobbak, a megoldások jelenleg még kevésbé beláthatóak. De mint fentebb is bemutattuk, egyes területeken már vannak működő rendszerek. Nem szabad a nehézségektől visszarettenni, el kell indulni a tudományos adatmenedzsment útján, előre kell lépni, ahol lehet.
 


Kulcsszavak: tudományos adatok, Open Access
 

 

IRODALOM

Altman, M. – King, G. (2007): A Proposed Standard for the Scholarly Citation of Quantitative Data. D-Lib Magazine. 13 March, 3–4, • WEBCÍM

Holl András (2013): Információáradat és hullámlovaglás. Magyar Tudomány. 4, 473-478. • WEBCÍM

URL1: FORCE 11 • WEBCÍM

URL2: WEBCÍM

URL3: Alliance for Permanent Access • WEBCÍM

URL4: SIM4RDM • WEBCÍM • WEBCÍM 

URL5: SIM4RDM Recommendations for support of research data management • WEBCÍM

URL6: OAIS ISO 14721:2003 • WEBCÍM

URL7: OpenAireplus • WEBCÍM

URL8: Knowledge Exchange • WEBCÍM

URL9: The Value of Research Data • WEBCÍM

URL10: DataCite • WEBCÍM

URL11: Data Citation Index • WEBCÍM

URL12: IVOA • WEBCÍM

URL13: EJME - Enhanced Journals...Made Easy! • WEBCÍM

URL14: GreyNet EPP • WEBCÍM

URL15: University of Edinburgh Research Data Man-agement Roadmap • WEBCÍM

URL16: DASPOS • WEBCÍM • WEBCÍM

URL17: Dataverse Network Project • WEBCÍM

URL18 figshare • WEBCÍM

URL19 CLOCKSS • WEBCÍM

URL20 Dryad Digital Repository • WEBCÍM

URL21 DANS EASY • WEBCÍM

URL22: ADS • WEBCÍM

 

 

LÁBJEGYZET

1 Az Open Access bevezetéséről az Egyesült Államok kutatásfinanszírozó szervezeteinél (URL2) <

2 SIM4RDM Recommendations for support of research data management (URL5) <