INSURE: Průvodce vědeckou integritou

Vyhodnocování získaných dat patří z hlediska vědecké integrity k nejcitlivějším a společně s přípravou odborných publikací (bezprostředně navazující Trasa 4) také k nejkritičtějším fázím vědecké práce. Konfrontace reálných výzkumných dat s testovanými hypotézami může vést k závěrům, které nejsou v souladu s původním konceptem projektu. Neplatnou hypotézu je pak nutno nějakým přijatelným způsobem vysvětlit ve zprávě o řešení projektu, která je obvykle předkládána poskytovateli financí na výzkum.

Skutečnost, že hypotéza tvořící pomyslnou páteř výzkumného projektu neplatí, pak může zejména v lidech vědeckému prostředí vzdálených vyvolat dojem, že finanční prostředky na tento výzkum byly vynaloženy zbytečně. To samozřejmě není pravda, neboť validní a korektně získaná data, která testovanou hypotézu vyvracejí, jsou z vědeckého hlediska stejně cenná jako data, která by svou testovanou hypotézu potvrzovala. Nicméně negativní výsledky výzkumu – byť podložené validními daty – jsou pořád dost často vnímány jako selhání. Tato situace může být pro výzkumníky velmi stresující a nezřídka vede k tomu, že se rozhodnou svá výzkumná data přikrášlit. Nemusí jít nutně přímo o vědecký podvod (angl. scientific misconduct – podrobnosti k tomuto tématu lze nalézt na Trase 7), ale o méně cílené a méně manipulující, navíc často podvědomé „leštění dat“.

Mezi typické příklady patří v experimentálních biomedicínských oborech výběr tzv. reprezentativní obrazové dokumentace (mikrofotografie, fotodokumentace gelů a membrán), kdy slovo „reprezentativní“ často neznamená „charakteristický“, ale „nejhezčí“. V humanitních a společenskovědních oborech může jít zase například o to, když v rámci analýzy účelově vybíráme, vypouštíme či přímo zamlčujeme určité položky, subtesty či testy, aby se měřicí nástroje zdály být validnější, než ve skutečnosti jsou, či aby reportované efekty byly co možná nejsilnější. Obdobou je selektivní referování informací o validitě a reliabilitě výzkumných nástrojů, kdy výzkumníci vybírají pouze ty dílčí doklady, které spoluutváří dojem spolehlivého měření a případně ještě k ne zcela optimálním koeficientům doplňují nadsazenou verbální interpretaci.

Mimořádně příznivým terénem pro prohřešky vůči vědecké integritě je pak oblast statistického zpracování dat. Přestože jsou základní předměty zabývající se statistikou často povinnou součástí studia příslušného vědního oboru, více než kde jinde zde platí známé úsloví o mnoha povolaných, ale málo vyvolených… Pokud se výzkumník necítí být odborně kompetentní pro statistické analýzy, je naprosto správným krokem přizvat do týmu specialistu-statistika. Potíž však nastává ve chvíli, kdy je statistik přizván pozdě – obvykle až v čase, kdy data jsou změřená či jinak sesbíraná a teprve při jejich analýze se ukáže, že design projektu či jeho jednotlivých experimentů nebyl naplánován správně. Problémem může být například nedostatečná velikost výzkumného souboru nebo chybné nastavení kontrol. Z tohoto důvodu je velmi vhodné konzultovat výzkumný design se statistikem už při plánování experimentů (podrobnosti viz Trasa 1).

Další z obvyklých potenciálních problémů nastává v přípravné fázi zpracování, kdy výzkumník upravuje data pro samotnou hlavní analýzu. Může jít například o různé transformace původních proměnných (např. překódování spojitých proměnných do omezeného počtu kategorií), identifikaci a vyřazování tzv. outlierů či účastníků, kteří neposkytli validní data (např. strávili nad dotazníkem tak málo času, že zjevně nečetli otázky), nebo imputaci chybějících dat. V řadě případů jsou tyto postupy zcela legitimní, samozřejmě za podmínky, že jejich použití je transparentní. Legitimními však přestávají být ve chvíli, kdy za jejich využitím stojí motivace dojít ke konkrétním výsledkům či potvrdit výzkumné hypotézy.

Dalším, relativně častým prohřeškem je tzv. p-hacking. Jde o cílené využívání statistických analýz pro hledání výsledků, které jsou pak prezentovány jako statisticky významné, přestože jimi ve skutečnosti nejsou. p-hacking má typicky podobu provedení velkého množství statistických testů, přičemž jsou selektivně interpretovány, či dokonce reportovány pouze ty, které se jeví být statisticky významné. Množství provedených testů, a tedy i příležitostí získat nějaké statisticky významné výsledky, může být uměle zvyšováno například tím, že výzkumník nahodile zkouší, zda „zafungují“ různé transformace téže proměnné, nebo opakovaně provádí analýzu na nahodilých částech svých dat. U velkých projektů se může též jednat o aktivní hledání statistických souvislostí mezi libovolnými proměnnými, bez ohledu na teoretické předpoklady. Vzhledem k tomu, že statistická průkaznost je pouze funkcí velikosti vzorku a síly efektu, je nalezení dostatku banálních souvislostí zajištěno.

Výše naznačené jevy jsou bohužel v mnoha vědních oborech natolik rozšířené, že jsou považovány za běžnou – a tedy akceptovatelnou – praxi. Z hlediska integrity výzkumníka (a výzkumu jako takového) jsou však krajně nebezpečné. Nevedou pouze k publikaci redundantních výsledků, ale dlouhodobě též k nárůstu cynismu a skepse vůči vědě jako takové.

Modelové situace porušení vědecké integrity při práci s daty:

Ve své diplomové práci jsem trochu upravil výsledkovou část, aby závěry celé práce byly přesvědčivé: ze statisticky nevýznamných rozdílů jsem udělal rozdíly významné, přitom stačilo u použitého testu jen změnit hladinu významnosti. Školitel si toho nevšiml a navržený oponent statistice beztak nerozumí.

Při sestavování obrázků do výsledkové části manuskriptu se ukazuje, že když poskládáme všechny potřebné mikrofotografie do panelu, rozdíly mezi nimi nejsou tak očividné, jak bychom si přáli a jak tyto rozdíly popisujeme ve výsledcích. Přikázal jsem proto svým doktorandům, aby na mikrofotografiích trochu zapracovali v grafickém editoru – upravili kontrasty a intenzitu barev, aby to celé bylo hezčí. Jsou to pořád originální mikrofotografie z příslušných experimentů, nic nefalšujeme ani nefabrikujeme, tak co…

Křivka naměřených dat vykazuje velkou míru šumu a místo nezpochybnitelného potvrzení platnosti naší hypotézy přináší jen nové otázky ohledně popisovaného fenoménu. Jedna z interpretací může být dokonce taková, že naše hypotéza neplatí a celý náš výzkumný projekt byl postaven na chybných předpokladech. Raději provedeme ještě dodatečnou filtraci dat, abychom míru šumu snížili a křivka vypadala pohledněji. Ten základní trend jejího sklonu tam je přece pořád patrný.

V manuskriptu uvádíme, že jsme experimenty provedli v kompletním rozsahu ve třech nezávislých opakováních. Ve skutečnosti to byl jeden velký experiment, v němž jsme jednotlivé vzorky rozdělili do tří souběžných paralelek, ale s jednou společnou negativní a jednou společnou pozitivní kontrolou – na víc jsme neměli ani čas, ani peníze. Kdybychom ale do výsledků uvedli pro kontroly jen jednu hodnotu bez chybových úseček, každý hned pozná, jak to ve skutečnosti bylo. Takže každou z nich vyhodnotíme třikrát. Vůbec nevadí, že je to tentýž kontrolní vzorek, ony tam nějaké odchylky budou a aspoň to celé bude vypadat věrohodně. Nic nefalšujeme, vždyť opravdu třikrát měříme kontroly.

Design experimentů jsme předem nekonzultovali se statistikem a povolali ho, až když byla data změřená. Ukázalo se, že jsme asi podhodnotili potřebnou velikost souboru a použili méně experimentálních zvířat, než povaha experimentu vyžadovala. Ale i tak data ukazují, že naše vstupní hypotéza zřejmě platí. Statistik dostal zadání, ať výsledky prostě zpracuje tak, jak jsou, a velikost souboru vůbec neřeší. A pokud se do toho začne trefovat někdo z recenzentů, statistik musí vymyslet nějaké věrohodné zdůvodnění, proč má náš soubor právě takovou velikost a ne jinou. Nakonec je to i jeho publikace, ne?

V rámci našeho týmu pracuji jako statistik. Zpracovávám poměrně složité analýzy na velkých datových souborech a upřímně řečeno, i když je náš projekt postaven na předběžně definovaných hypotézách, mám poměrně dost velkou volnost v analýze, protože komplikovanějším postupům moji kolegové stejně jako většina recenzentů nerozumí. Takže nemám problém zvolit dílčí postupy transformace dat, estimátory a indexy shody tak, aby to prostě vyšlo. Z literatury pak selektivně vyberu odkazy, které potvrzují, že se to tak dělá.

Jako statistik jsem pro řešitele projektu vylaboroval strukturní model, který po mně chtěl. Nakonec jsem jej poupravil tak, že výsledné indexy shody odpovídají požadavkům – zafixoval jsem všechny možné parametry, povolil korelace reziduálních rozptylů, takže byl model úspěšně odhadnut i přesto, že nesplňuje základní formální požadavky. Protože do odborných časopisů se v drtivé většině případů referují jen základní statistiky modelu a ne detaily odhadu, které zabírají několik stran tabulek, nikdo v nejbližších letech nepozná, že je to celé fabulace. Navíc to po mně řešitel chtěl a nedal si říct, že to nemá smysl. Ostatně už jsem počítal i mnohem horší věci.

Potřebuji vykázat v rámci svého grantu ještě jednu publikaci. Poprosil jsem tedy svého doktorského studenta, ať se podívá na naše data a vyzkouší, zda se tam někde – a je mi vlastně jedno kde – neobjevují nějaké korelace, klidně mezi zcela nesouvisejícími proměnnými. Až něco najde, sepíšeme k tomu nějakou teorii a máme článek.

Ve výzkumu jsme sbírali data online dotazníkem. Naše hypotéza se na nich bohužel nepotvrdila. Všiml jsem si ale, že když vyřadím data od lidí, kteří vyplňovali dotazník na mobilním zařízení, výsledky začnou přece jen být statisticky významné. Nemám žádný rozumný důvod se domnívat, že by se použité zařízení mělo promítat do odpovědí mých účastníků. Na druhou stranu to tam asi přece jen hraje nějakou roli. Umažu tedy ze vzorku data od všech lidí, kteří použili mobilní zařízení, a raději zapomenu, že nějací takoví kdy existovali.

Trasa 2 – Realizace výzkumu

Trasa 4 – Publikování výsledků výzkumu

INSURE: Průvodce vědeckou integritou

Renata Veselská; Jan Širůček; Josef Kuře; Jan Šerek

Trasa 3 – Vyhodnocování výsledků výzkumu (Analysis and Interpretation of Research Results)

Modelové situace porušení vědecké integrity při práci s daty: