ArticlePDF Available

Öppna data kan öka kunskapsmassan och motverka fusk

Authors:
1
Läkartidningen
Volym 113
KOMMENTAREN
Det är god sed att bevara forsk-
ningsdata och att dela dem med
andra forskare på begäran, om
nödvändigt efter anonymise-
ring. Universitet och högskolor
har också en juridisk skyldighet
att arkivera forskningsdata.
I praktiken är dock tillgång-
en till data ofta beroende av den
enskilde forskarens arkivreda
och beredvillighet att dela med
sig. Idealfallet är att forskaren
kan förklara var data finns, hur
filerna kan öppnas och hur va-
riablerna kan identifieras samt
tillhandahålla metadata som be-
skriver hur datasetet tagits fram.
Men dessvärre är det inte
ovanligt att forskare har bytt dator eller
arbetsplats, inte längre minns var data
finns sparade eller har glömt bort vad va-
riabelnamnen betyder eller hur data gene-
rerats och bearbetats [1, 2]. Det som hade
kunnat upptäckas genom ny- eller omana-
lyser förblir då dolt och oupptäckt.
Varje gång ett dataset går ad mortem och
blir funktionellt otillgängligt blir det svå-
rare att få en korrekt överblick av fältets
kunskapsläge. Risken för snedvridning
(bias) ökar när andelen tillgängliga data
minskar och eektskattningar blir mind -
re säkra. En vetenskaplig litteratur med
ett växande antal påståenden om bevisa-
de eekter men för vilka data inte längre
kan granskas riskerar att få ett sjunkande
samlat bevisvärde över tid.
Öppna data för a utvinna ny kunskap
Rapporter av kliniska prövningar och and-
ra experiment innehåller ofta
endast sammanfattningar av
data och eektskattningar från
statistiska modeller. Det full-
ständiga data setet är vanligen
mycket rikare och innehåller
dessutom ofta värdefull infor-
mation som inte analyserats
och rapporterats.
Att förutsäga exakt vilka frå-
gor som ett dataset kan besva-
ra är svårt. Metaanalyser med
aggregerade data ger bättre ef-
fektskattningar än enskilda stu-
dier, men metaanalyser med
individdata ger ännu bättre ef-
fektskattningar. Detta beror bl a
på att mer varians kan förklaras
i statistiska modeller som använder vari-
abler som har registrerats på individnivå.
Heterogenitet som minskar skattningens
säkerhet kan uppstå exempelvis om olika
studier har analyserat data på skilda sätt,
t ex genom att använda olika kovariat i
regres sionsmodeller. Om individdata är
tillgängliga kan sådan heterogenitet över-
vinnas.
Tillgången på data påverkar också starkt
risken för snedvridning (bias) i en meta-
analys. Snedvridning uppstår exempelvis
när vissa resultat inte har publicerats på
grund av att fynden gick i en viss riktning
eller saknade statistisk signifikans. Ju mer
data som saknas, desto större blir risken
för snedvridning. Ju mer aggregerade data
är, desto sämre går det att hantera förväx-
lingsfaktorer [3].
För att en vetenskaplig rapport ska få sitt
största värde som byggsten för kunskap är
det därför angeläget att data görs tillgäng-
liga, helst i så fullständig och obearbetad
form som möjligt. I dag finns mycket goda
möjligheter att publicera öppna data ge-
nom olika fältspecifika eller allmänna
arkiv, ofta utan kostnad för den enskilde
forskaren. En bra utgångspunkt är den lis-
ta över öppna arkiv som hålls av tidskrif-
ten Scientific Data (http://www.nature.
com/sdata/policies/repositories#general).
Tvivelaktiga forskningspraktiker och fusk
Tvivelaktiga forskningspraktiker minskar
forskningens tillförlitlighet. Ett exempel
är utfallsväxling i kliniska prövningar: om
det från början avsedda utfallsmåttet (t ex
mortalitet) inte uppvisar några tydliga re-
sultat, kan det hända att forskarna i stället
lyfter fram ett annat utfallsmått (t ex ra-
diologisk tumörprogress). Problemet med
detta är förstås att om man använder till-
räckligt många utfallsmått är det alltid
något som visar en statistiskt signifikant
eekt av ren slump.
Utfallsväxling kan därför skapa en miss-
visande bild av hur eektiv en behandling
är. Med öppna data är det möjligt att om-
analysera ett dataset, exempelvis i enlighet
med den plan som angivits i ett preregist-
rerat studieprotokoll, för den händelse att
den slutliga vetenskapliga rapporten avvi-
ker från protokollet utan övertygande skäl.
I ljuset av avslöjanden om oredlighet på
svenska lärosäten är det angeläget att fun-
dera över hur fusk och tvivelaktiga prak-
tiker kan förebyggas. Centrala etikpröv-
ningsnämndens expertgrupp för oredlig-
het i forskning beslöt nyligen i ett fall med
duplicerade fotomikrografier att det var
oredligt att de rätta bilderna inte kunde vi-
sas upp på begäran [4]. Om de foton för vil-
ka de publicerade bilderna uppgavs vara
representativa hade publicerats öppet i ett
digitalt arkiv, skulle det inte ha varit möj-
ligt att på detta sätt tappa bort data.
Det är dessutom troligt att en oavsiktlig
förväxling aldrig hade skett om man öp-
pet arkiverat dem, eftersom arkiveringen
medför att man noga går igenom och an-
noterar data. En eventuell avsiktlig för-
HUVUDBUDSKAP
b Öppna data från kliniska prövningar och
andra studier gör det möjligt a utvinna
mer kunskap, minskar risken för snedvrid-
ning (bias) och kan motverka fusk.
b Krav på öppna data ställs nu av EU liksom
av flera forskningsfinansiärer och veten-
skapliga tidskrifter.
b Meritsäning av öppna data är en delvis
olöst utmaning.
Öppna data kan öka kunskaps-
massan och motverka fusk
»Varje gång e dataset går ad
mortem och blir funktionellt
otillgängligt blir det svårare
a få en korrekt överblick av
fältets kunskapsläge.«
EU, VETENSKAPSRÅDET, FINANSIÄRER OCH VETENSKAPLIGA TIDSKRIFTER
STÄLLER NU KRAV PÅ ATT FORSKNINGSDATA GÖRS FRITT TILLGÄNGLIGA
Gustav
Nilsonne,
med dr,
forskare,
Karolinska institutet;
Stockholms univer-
sitet
b gustav.nilsonne@ki.se
Rebecca
Willén,
fil dr, fors-
kare,
IGDORE (Globally
Distributed Institute
for Open Research
and Education)
2
Läkartidningen
2016
KOMMENTAREN
växling hade lättare kunnat upptäckas av
referentgranskare om de hade haft till-
gång till hela materialet.
Etisk skyldighet mot forskningspersonerna
När forskningspersoner deltar i kliniska
prövningar eller andra studier underkas-
tar de sig risker och intrång för att bidra
till kunskapsutvecklingen. Den etiska be-
dömningen av en studie grundar sig i en
avvägning mellan risker och förväntad
nytta. Kunskapsnyttan är beroende av att
studiens resultat blir tillgängliga. Om data
inte i någon form kan användas har för-
sökspersonernas risker varit förgäves. Det
ankommer på varje ägare av forskningsda-
ta, särskilt från människor och djur, att se
till att största möjliga kunskapsvärde kan
utvinnas och helst återföras till den popu-
lation från vilken data hämtats.
Data från människor måste anonymise-
ras på ett tillfredsställande sätt innan de
publiceras. Kunskapsvärdet av att publi-
cera data öppet måste balanseras mot
risken för identifikation och uppgifter-
nas känslighet. I de flesta fall kan risken
för identifikation hanteras genom att va-
riabler med unika värden (t ex ålder och
kroppslängd) kategoriseras eller stryks.
Vissa typer av data, exempelvis radiolo-
giska bilder, kan inte anonymiseras helt.
Man måste då överväga vilka riskmodeller
som kan vara aktuella, hur sannolika de är,
och om ytterligare åtgärder kan vidtas för
att minska risken, såsom att beskära bil-
derna. Exempelvis är det möjligt vid publi-
cering av hjärnavbildningsdata att inte ta
med ansiktsregionen.
Meritsäning av öppna data
Det är en utmaning för utvecklingen av
öppna data att flytta det vetenskapliga
meritvärdet från artefakten (publikatio-
nen) till själva innehållet (data, analyskod,
tolkningar). På sätt och vis är detta bara en
aspekt av det välkända problemet att för-
fattarlistor inte på något tydligt sätt av-
speglar författarnas respektive bidrag till
publikationen.
I New England Journal of Medicine har
öppna data debatterats under året. Det
började med att Dan Longo och Je Dra-
zen, två av redaktörerna, i en ledare bekla-
gade sig över risken för att »dataparasiter«
ska snylta på andras arbete och publicera
resultat från data som de själva inte sam-
lat in [5]. I sociala medier väckte ledaren
muntert löje.
Ändå pekar Longo och Drazen på en öm
punkt: Till dess att vi har hittat ett sätt att
meritvärdera öppna data är varje dataset
en investering för den enskilde forskaren.
Här vilar ett ansvar på forskningsfinan-
siärerna att utveckla riktlinjer som tydligt
värdesätter forskningens innehåll i stället
för potentiellt missvisande indikatorer så-
som antalet publicerade artiklar.
En åtgärd som visat sig öka publicering
av öppna data är att tidskriften sätter en
digital stämpel (badge) på artikeln om
den innehåller öppna data. När stämplar
för öppna praktiker infördes i tidskriften
Psychological Science ökade andelen ar-
tiklar med öppna data från mindre än 5
procent till över 40 procent [6]. Någon mot-
svarande ökning kunde inte observeras i
jämförbara tidskrifter under samma tid.
Åtgärder för öppna data
Internationella tidskrifter och anslagsgi-
vare har börjat kräva att forskningsdata
och forskningsmaterial ska göras fritt till-
gängliga, inte bara för andra forskare utan
också för allmänheten (öppen tillgång el-
ler »open access«). Vetenskapsrådet har fö-
reslagit riktlinjer som innebär att forsk-
ningens resultat både i form av rapporter
och data ska göras fritt tillgängliga senast
från år 2025 [7].
Även EU är i färd med att införa krav på
öppen tillgång, och det återstår att se hur
dessa kommer att implementeras i Sverige
och andra medlemsstater [8].
Vi ser fram emot att regeringen tar ställ-
ning till Vetenskapsrådets föreslagna rikt-
linjer. Forskningsfinansiärer borde väga in
öppna data som kvalitetsmarkör vid be-
slut om anslag, och lärosäten borde göra
det vid beslut om anställning och beford-
ran.
Lärosäten och finansiärer borde ock-
så agera för att rädda viktiga dataset som
riskerar att bli funktionellt otillgängliga.
Prio ritet bör ges åt sådana dataset som in-
formerar klinisk och annan praktik, t ex
data från kliniska prövningar, och åt data-
set som är unika och svåra att återskapa.
Till sist vilar ansvaret för att värdesät-
ta praktiker som stödjer reproducerbarhet
på oss alla som är aktiva som forskare och
tillsammans bygger upp vår vetenskapliga
kultur. s
b Potentiella bindningar eller jävsförhållanden: Inga
uppgivna.
Citera som: Läkartidningen. 2016;113:ELCU
Öppna och fri tillgängliga forskningsdata ger
både möjligheter och utmaningar.
REFERENSER
1. Vines TH, Albert AYK, Andrew RL, et al. The availabi-
lity of research data declines rapidly with article age.
Curr Biol. 2014;24(1):94-7.
2. Krawczyk M, Reuben E. (Un)available upon request:
field experiment on researchers’ willingness to
share supplementary materials. Account Res.
2012;19(3):175-86.
3. Lakens D, Hilgard J, Staaks J. On the reproducibility
of meta-analyses: six practical recommendations.
BMC Psychol. 2016;4(1):24.
4. Centrala etikprövningsnämnden (CEPN). Expert-
gruppen för oredlighet i forskning. Yttrande 2016-
09-08 [citerat 6 okt 2016]. Dnr O 2-2016. http://www.
epn.se/media/2377/o-2-2016-expertgruppens-yttran-
de-160908.pdf
5. Longo DL, Drazen JM. Data sharing. N Engl J Med.
2016;374(3):276-7.
6. Kidwell MC, Lazarević LB, Baranski E, et al. Badges
to acknowledge open practices: a simple, low-cost,
eective method for increasing transparency. PLoS
Biol. 2016;14(5):e1002456.
7. Vetenskapsrådet. Nationella riktlinjer för öppen
tillgång till vetenskaplig information 27 jan 2016
[citerat 6 okt 2016]. http://www.vr.se/omveten-
skapsradet/regeringsuppdrag/avrapporterade2015/
avrapporterade2015/nationellariktlinjerforoppentill-
gangtillvetenskapliginformation.4.7e727b6e141e9ed-
702b1307e.html
8. The Netherlands EU Presidency 2016. Amsterdam
Call for Action on Open Science. 7 apr 2016 [citerat
6 okt 2016]. https://english.eu2016.nl/documents/
reports/2016/04/04/amsterdam-call-for-action-on-
open-science
Illustration: Colourbox
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Author Openness is a core value of scientific practice. The sharing of research materials and data facilitates critique, extension, and application within the scientific community, yet current norms provide few incentives for researchers to share evidence underlying scientific claims. In January 2014, the journal Psychological Science adopted such an incentive by offering “badges” to acknowledge and signal open practices in publications. In this study, we evaluated the effect that two types of badges—Open Data badges and Open Materials badges—have had on reported data and material sharing, as well as on the actual availability, correctness, usability, and completeness of those data and materials both in Psychological Science and in four comparison journals. We report an increase in reported data sharing of more than an order of magnitude from baseline in Psychological Science, as well as an increase in reported materials sharing, although to a weaker degree. Moreover, we show that reportedly available data and materials were more accessible, correct, usable, and complete when badges were earned. We demonstrate that badges are effective incentives that improve the openness, accessibility, and persistence of data and materials that underlie scientific research.
Article
Full-text available
Background Meta-analyses play an important role in cumulative science by combining information across multiple studies and attempting to provide effect size estimates corrected for publication bias. Research on the reproducibility of meta-analyses reveals that errors are common, and the percentage of effect size calculations that cannot be reproduced is much higher than is desirable. Furthermore, the flexibility in inclusion criteria when performing a meta-analysis, combined with the many conflicting conclusions drawn by meta-analyses of the same set of studies performed by different researchers, has led some people to doubt whether meta-analyses can provide objective conclusions. DiscussionThe present article highlights the need to improve the reproducibility of meta-analyses to facilitate the identification of errors, allow researchers to examine the impact of subjective choices such as inclusion criteria, and update the meta-analysis after several years. Reproducibility can be improved by applying standardized reporting guidelines and sharing all meta-analytic data underlying the meta-analysis, including quotes from articles to specify how effect sizes were calculated. Pre-registration of the research protocol (which can be peer-reviewed using novel ‘registered report’ formats) can be used to distinguish a-priori analysis plans from data-driven choices, and reduce the amount of criticism after the results are known. SummaryThe recommendations put forward in this article aim to improve the reproducibility of meta-analyses. In addition, they have the benefit of “future-proofing” meta-analyses by allowing the shared data to be re-analyzed as new theoretical viewpoints emerge or as novel statistical techniques are developed. Adoption of these practices will lead to increased credibility of meta-analytic conclusions, and facilitate cumulative scientific knowledge.
Article
The aerial view of the concept of data sharing is beautiful. What could be better than having high-quality information carefully reexamined for the possibility that new nuggets of useful data are lying there, previously unseen? The potential for leveraging existing results for even more benefit pays appropriate increased tribute to the patients who put themselves at risk to generate the data. The moral imperative to honor their collective sacrifice is the trump card that takes this trick. However, many of us who have actually conducted clinical research, managed clinical studies and data collection and analysis, and curated data sets have . . .
Article
Policies ensuring that research data are available on public archives are increasingly being implemented at the government [1], funding agency [2-4], and journal [5, 6] level. These policies are predicated on the idea that authors are poor stewards of their data, particularly over the long term [7], and indeed many studies have found that authors are often unable or unwilling to share their data [8-11]. However, there are no systematic estimates of how the availability of research data changes with time since publication. We therefore requested data sets from a relatively homogenous set of 516 articles published between 2 and 22 years ago, and found that availability of the data was strongly affected by article age. For papers where the authors gave the status of their data, the odds of a data set being extant fell by 17% per year. In addition, the odds that we could find a working e-mail address for the first, last, or corresponding author fell by 7% per year. Our results reinforce the notion that, in the long term, research data cannot be reliably preserved by individual researchers, and further demonstrate the urgent need for policies mandating data sharing via public archives.
Article
This article reports results of a field experiment in which two hundred e-mails were sent to authors of recent articles in economics that had promised to send the interested reader supplementary material, such as alternative econometric specifications, "upon request." The e-mails were sent either by a researcher affiliated at Columbia University, New York or the University of Warsaw, Poland; furthermore, the authors' position (assistant professor) was specified in half the e-mails only. Overall, 64% of the approached authors responded to our message, of which two thirds (44% of the entire sample) delivered the requested materials. The frequency and speed of responding and delivering were very weakly affected by the position and affiliation of the sender. Gender or affiliation of the author, number of citations or journal impact factor or the type of object in question seemed to make no difference. However, authors of published articles were much more likely to share than authors of working papers.
Amsterdam Call for Action on Open Science
  • The Netherlands
  • E U Presidency
The Netherlands EU Presidency 2016. Amsterdam Call for Action on Open Science. 7 apr 2016 [citerat 6 okt 2016]. https://english.eu2016.nl/documents/ reports/2016/04/04/amsterdam-call-for-action-onopen-science