Výzkumná data

Výzkumná data jsou všechny informace, které byly vytvořeny, shromážděny, zaznamenány a zpracovány během výzkumu za účelem ověření jeho výsledků. V průběhu výzkumu a výzkumných projektů procházejí výzkumná data různými fázemi – tzv. data life cycle. Pro správné nastavení procesů ve všech fázích tohoto cyklu je klíčový management výzkumných dat (Research Data Management neboli RDM). Nakládání s výzkumnými daty se stává stále více předmětem zájmu poskytovatelů finanční podpory – plánování v rámci data managementu bývá požadováno již při podání samotných projektových žádostí, důraz je také kladen na otevírání a sdílení dat. K maximalizaci opětovného využití výzkumných dat významně přispívá dodržování tzv. FAIR principů. Implementací FAIR principů se na Masarykově univerzitě věnuje Open Science Team při ÚVT v rámci univerzitní strategie Open Science MU.

Životní cyklus dat

Životní cyklus dat neboli Data life cycle popisuje všechny fáze práce s vědeckými daty od začátku do konce projektu. ELIXIR RDMkit nabízí přehledné zobrazení těchto životních fází včetně podrobného popisu každé z nich a otázek, které bychom si v jednotlivých fázích tohoto cyklu měli klást.

https://rdmkit.elixir-europe.org/data_life_cycle

FAIR a Open data

Tzv. principy FAIR dat jsou souborem doporučení, jejichž dodržování při práci s výzkumnými daty zvyšuje možnost jejich dalšího využití. Dodržování těchto principů je předpokladem ke sdílení a případnému otevření dat dle principu „as open as possible, as closed as necessary“.

Hlavními FAIR principy jsou:

  1. Findability – nalezitelnost. K tomu, aby mohla být data dále využitelná, je nezbytné, aby byla nalezitelná. K naplnění tohoto principu jsou klíčová dostatečná metadata opatřená persistentními identifikátory, indexovaná v prohledávatelných systémech.
  2. Accessibility – dostupnost. Tento princip zajišťuje možnost přístupu k datům a metadatům – v otevřeném přístupu nebo pomocí autentizace a autorizace za využití standardního komunikačního protokolu.
  3. Interoperability – interoperabilita zajišťuje integrovatelnost s dalšími daty za pomoci standardních datových formátů, řízených slovníků a provázanosti na jiná (meta)data přes formalizované reference.
  4. Reuse – opětovná využitelnost – nejvyšší FAIR princip, jehož dosažení umožní kvalitní metadata, zveřejnění pod jasně definovanou licencí, spojení dat s jejich původem a splnění standardů pro daný vědecký obor.

Open data (neboli otevřená data) jsou vědecká data, která splňují výše uvedené FAIR principy a jsou přístupná v digitálně podobě pod otevřenou licencí (např. Creative Commons). Hlavní myšlenkou podporující otevírání výzkumných dat je jejich znovuvyužitelnost, možnost ověření vědeckých tvrzení, omezení zbytečného opakování výzkumu, možnost integrace s dalšími datovými sadami, urychlení vědeckého procesu a zvýšení vědecké spolupráce. Otevírání dat tam, kde je to možné, je proto velmi žádoucí. Tato podmínka se také stále častěji objevuje v projektových schématech a u vydavatelů odborných časopisů.

TIP: RDMkit – průvodce dobrou praxí správy dat v Life Sciences

Data management planning

Data management planning je proces plánování toho, jakým způsobem bude nakládáno s vědeckými daty během celého životního cyklu projektu.

Data management plan (DMP) je dokument, který tyto činnosti a procesy definuje. Je to živý dokument, který by měl být v průběhu výzkumného projektu průběžně aktualizován.

Aby byla práce s DMP co nejefektivnější, je žádoucí využít k jeho tvorbě a aktualizaci vhodný nástroj. DMP můžeme tvořit např. jako sdílený dokument, k dispozici je však řada aplikací určených přímo k tvorbě DMP (např. DMPonline). Masarykova univerzita má k dispozici univerzitní instanci nástroje Data Stewardship Wizard (DSW), který je nyní také doporučeným nástrojem pro zaměstnance MU.

TIP: Ukázky DMP

Infrastruktura

Úložiště Masarykovy univerzity – MU má k dispozici několik typů datových úložišť vhodných pro různé typy dat. Pro rozhodování o tom, jaký typ úložiště použít pro konkrétní typy dat, slouží Doporučení pro užívání úložišť.

SensitiveCloud – infrastruktura pro práci s citlivými daty.

Oddělení datových úložišť CESNET – pro zálohování, archivaci, sdílení dat.

EOSC - European Open Science Cloud je iniciativa Evropské komise zaměřená na rozvoj společné výzkumné infrastruktury s volně dostupnými službami pro uchovávání, zpracování, sdílení, analýzu a opakované použití vědeckých dat. V ČR nyní probíhá implementace EOSC, jejímž cílem je vytvořit národní uzel této iniciativy a podpořit dobrou praxi v oblasti správy výzkumných dat napříč vědeckými komunitami. Hlavním cílem je vytvoření tzv. Národní datové infrastruktury pro sdílení, správu a přístup k datům a výpočetním zdrojům pro výzkumné účely.

 

Datové repozitáře

Vědecká data je možné ukládat a sdílet v datových repozitářích, které dle typu dělíme na institucionální, národní, oborové nebo obecné (např. Zenodo). Repozitář vybíráme především dle oborových specifik, nabízených služeb a nástrojů (persistentní identifikátory, otevřený přístup, opatření datasetu licencí, verzování,…) důvěryhodnosti (certifikované repozitáře), nebo dle požadavků vydavatele či poskytovatele.

K vyhledání vhodného datového repozitáře je možné využít např. registry re3data.org nebo OpenDOAR.

V pilotním provozu momentálně funguje Národní repozitář provozovaný sdružením CESNET.

TIP: How to find a trustworthy repository for your data

Data a vědecká integrita

Pod pojmem vědecká integrita obecně rozumíme dodržování hodnot, principů, postupů a ideálů vědy a výzkumu. Mravní integrita a etika vědce má dopad nejen na vědu jako takovou, ale souvisí také s velkou společenskou odpovědností této profese. Integrita výzkumných dat je základním předpokladem kvality výzkumu a hraje klíčovou roli při jeho reprodukovatelnosti a opětovném využít dat. Při nakládání s výzkumnými daty může docházet k řadě pochybení, která jsou v rozporu s vědeckou integritou. Je proto klíčové nastavit jasná a transparentní pravidla nakládání s daty, která minimalizují možnost záměrných i neúmyslných pochybení (modelové příklady např. zde) a mohou vést k narušení reputace vědce i celé instituce. Zásadní je také kultivace samotného vědeckého prostředí, které neetickému chování svým systémovým nastavením leckdy nahrává.

TIP: INSURE: Průvodce vědeckou integritou

Jak tedy zaručit integritu výzkumných dat?

Data management planning a tvorba DMP nám může pomoci důkladně a komplexně přemýšlet o všech fázích životního cyklu dat a tím výrazně posílit efektivní nakládání s daty v jednotlivých oblastech a fázích výzkumu. Klíčové je jasné nastavení pravidel pro organizaci a archivaci dat (Jak a kde budu data uchovávat, jak dlouho?), proškolení výzkumného personálu, vedení přesné dokumentace, zajištění dostatečných metadat, sdílení a uchovávání nezpracovaných dat pro případné budoucí použití.

TIP: Data Integrity in Research: What Does It Mean and How Do We Achieve It?

Pokud se již nějakého pochybení při práci s daty dopustíme a výsledky výzkumu jsme již publikovali, je jednoznačně namístě retrakce publikace.

Laboratorní deníky

Laboratorní deníky a podrobné záznamy v nich jsou optimální formou archivace všech úkonů, nápadů a objevů, které jste ve výzkumu učinili. Jsou také dobrým nástrojem pro zvýšení efektivity práce s daty. Laboratorní deník může mít podobu ručně vedených poznámek či elektronického laboratorního deníku (ELNs). Laboratorní deník slouží nejen jako dokumentace vaší práce (mimo jiné i jako důkaz v případném sporu o to, kdo je původcem dat, tedy nositelem duševního vlastnictví). Je také nástrojem spolupráce a předávání informací v rámci laboratoře / výzkumného týmu.

Interaktivní prostředí pro dokumentované zpracování dat včetně sdílení notebooku laboratorních deníků, použitých dat i DOI, nabízí např. JupyterNotebooks.

TIP: Doporučení pro vedení laboratorních deníků z pohledu ochrany duševního vlastnictví

TIP: Using an Electronic Lab Notebook

 

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info