Onderwijs

‘De ratrace is nog niet voorbij’

Blijf niet zitten op je onderzoeksdata, maar deel ze met de rest van de academische wereld. Daarvoor pleitten TU-Library-directeur Wilma van Wezenbeek en hoogleraar data science Geert-Jan Houben tijdens de dies. “‘Je wordt een betere student, docent of onderzoeker als je data deelt.”

Geert-Jan Houben en Wilma van Wezenbeek. (Foto: Sam Rentmeester)

Een onderzoeker is als een fotograaf. De wetenschapper verzamelt data en creëert daarmee een virtuele weergave van de werkelijkheid. Wanneer is het kiekje geschoten, vanuit welke hoek, met welke belichting en sluitertijd? Alleen de onderzoeker  kent die details en weet hoe hij of zij de weergave – lees data – moet interpreteren.

Deze analogie gebruikte Geert-Jan Houben in zijn lezing tijdens de dies in januari, die in het teken stond van open science. Bij het ontsluiten van data komt nogal wat kijken, wil Houben maar zeggen. “Je hebt de verantwoordelijkheid om daar goed over na te denken. Je wilt voorkomen dat andere onderzoekers verkeerde conclusies trekken uit jouw data omdat ze er niet dezelfde feeling mee hebben.”

We hebben voor een dubbelinterview afgesproken in de TU Delft Library, de werkplaats van Van Wezenbeek. Ze is er de directeur en houdt zich in die hoedanigheid bezig met open science. Houben is hoogleraar data science bij de faculteit Elektrotechniek, Wiskunde en Informatica en ontwikkelt systemen om data te ontsluiten en doorzoekbaar te maken.

‘Ik verwacht dat het nog tien tot twintig jaar duurt voordat het gemeengoed is om data te openbaren’

Nu het publiceren van artikelen in openbare registers en open access-tijdschriften – bladen die voor iedereen vrij toegankelijk zijn – steeds meer gemeengoed wordt, richt de open access-beweging haar pijlen op data. Met overheidsgeld betaald onderzoek en de afgeleiden daarvan, de publicaties en de data moeten voor iedereen toegankelijk zijn, luidt het credo van de open access beweging.

Voor publicaties zijn duidelijke streefcijfers. Nederland wil dat vanaf 2020 al dit soort publicaties vrij toegankelijk worden. (De teller staat nu op ongeveer vijftig procent). Dat staat in het Nationaal Plan Open Science, een rapport dat Van Wezenbeek vorig jaar met enkele collega’s schreef in opdracht van het ministerie van Onderwijs, Cultuur en Wetenschap. Open science moet leiden tot betere wetenschap en meer innovatie.

Voor de onderliggende onderzoeksgegevens zijn nog geen jaartallen genoemd. “Ik verwacht dat het nog tien tot twintig jaar duurt voordat het gemeengoed is om data te openbaren; totdat het in alle haarvaten van de wetenschap is doorgedrongen”, zegt Van Wezenbeek. “Het gaat die kant op, daar twijfel ik niet aan.”

Waarom is het delen van data belangrijk?

Van Wezenbeek. “Onderzoekgegevens moeten de maatschappij ten goede komen, zeker als ze met behulp van publieke middelen zijn verzameld. Het is een logische verbreding van de wetenschap. Zowel diegenen die de data openbaar maken als diegenen die er op voortborduren, kunnen ervan profiteren. Je krijgt meer kruisbestuiving van vakgebieden. Mensen kunnen patronen vinden in jouw data die je zelf over het hoofd hebt gezien omdat ze er op een andere manier naar kijken.”
Houben: “In de wetenschap wil je zo veel mogelijk veralgemeniseren. Stel: je doet onderzoek naar de prestaties van wielrenners en je wilt weten hoe die samenhangen met het weer. Met de luchtvochtigheid bijvoorbeeld. Je hebt metingen verricht met inachtneming van allerlei veronderstellingen en condities. En je meent wellicht dat je conclusies ook gelden voor sportprestaties op andere plekken in de wereld. Als je de onderliggende data deelt, kunnen wetenschappers elders het werk reproduceren. Uit dergelijke studies kan dan blijken dat de prestaties van wielrenners in Washington op een andere manier samenhangen met weercondities dan in Nederland. Dat levert nieuwe inzichten op, voor jou en voor de collega’s in de VS.”

Maar je stelt je ook kwetsbaar op. Stel dat anderen slordigheden ontdekken in jouw gegevens. Zal de angst hiervoor onderzoekers er niet van weerhouden om data te delen?

Van Wezenbeek: “Het is alleen maar goed dat je als wetenschapper gedwongen wordt om beter over je data na te denken en over de wijze waarop je ze presenteert.”

Onderzoekers die data bewust manipuleren, lopen eerder tegen de lamp. Gaat er een zuiverende werking uit van open science?

Van Wezenbeek: “Als wetenschappers zich er meer van bewust zijn dat hun werk voor een grote groep onderzoekers interessant kan zijn, voelen ze zich misschien meer gedwongen om hun data volgens bepaalde standaarden te bewaren, omschrijven en bewerken, om er zeker van te zijn dat alles klopt. Ik volg je redenering, maar een zuiverende werking vind ik een enge term. Alsof er zo ontzettend veel sloppy science zou zijn. Open science zorgt voor aanscherping van de wetenschap.”
Houben: “Door data te delen creëer je een vorm van peer review die veel verder reikt dan de collegiale toetsing die we nu kennen in de tijdschriftenwereld. Een grote gemeenschap kan verifiëren of je gegevens correct zijn. Je kunt het vergelijken met open source software. Je deelt je werk met de community, en die als geheel kan een oordeel vellen.”

Toch kan ik me voorstellen dat onderzoekers niet staan te springen om hun data te delen. Die vormen immers de basis voor publicaties. Als andere wetenschappers een primeur halen met jouw gegevens, is de kans klein dat jij nog in een hoog aangeschreven blad kunt publiceren. Publish or perish luidt het spreekwoord in de wetenschap. Zou deze rat race voorkomen dat onderzoekers hun data openbaren?

Van Wezenbeek: “Een van de mooie verworvenheden van het debat rondom open science is dat we op een andere manier zijn gaan nadenken over de erkenning van wetenschap. Het gaat niet alleen maar om de high impact-publicaties. Een wetenschapper die data goed weet weg te zetten zodat anderen er ook mee kunnen werken, verdient erkenning.”

Maar krijgt hij of zij die erkenning ook?

Van Wezenbeek: “De rate race is nog niet verdwenen, maar we zijn op de goede weg.”
Houben: “Competitie is goed. Maar de vraag is of de rivaliteit alleen gericht moet zijn op de klassieke artefacten – de publicaties – of ook op andere artefacten van het onderzoeksproces. We kunnen ook met zijn allen het belang onderschrijven van goede bijsluiters bij data en daar een beloningssysteem voor optuigen.”

Wat bedoelt u met bijsluiters?

Houben: “De metadata. Oftewel de beschrijving van de data, onder welke omstandigheden ze zijn verzameld en hoe je ze moet interpreteren. Op het moment dat een arts jou een medicijn voorschrijft, heeft hij de verantwoordelijkheid om erbij te vertellen hoe je het geneesmiddel moet gebruiken. Net zo heeft een wetenschapper de verantwoordelijkheid om data met de juiste bijsluiter vrij te geven. Daar gaat dit hele verhaal over.”

Op enkele faculteiten zijn sinds kort data-stewards aan de slag. Zij helpen wetenschappers bij het ontsluiten van hun onderzoeksgegevens. Is het delen van data zo lastig?

Houben: “Binnen elk vakgebied gelden conventies over de betekenis van termen. Neem sportonderzoekers. Wat zij onder motregen verstaan, zouden wetenschappers uit andere vakgebieden misschien als mistig omschrijven of juist als forse neerslag. Als die onderzoekers data van elkaar gebruiken, moeten de termen voor iedereen duidelijk zijn. Je kunt data niet zomaar wegzetten in een repository zonder hier over na te denken. En andersom, als je andermans data gebruikt, moet je je bewust zijn van verschillen in interpretatie tussen vakgebieden. Onderzoekers zullen altijd eerst aan elkaar en aan elkaars vakgebied moeten snuffelen om tot een goede data-uitwisseling te komen.”

Dit klinkt omslachtig. Worden er standaarden ontwikkeld voor het wegzetten van data?

Houben: “Ik denk dat het een combinatie wordt. Sommige dingen kun je ‘weg-standaardiseren’ of ‘weg-automatiseren’. En voor het juist interpreteren van andere data – veelal de wat meer spannende gegevens – zal je toch contact moeten opnemen. In veel gevallen moet je ook de privacy van proefpersonen waarborgen. Tegelijk wil je bepaalde gegevens over hen kwijt, anders hebben andere wetenschappers natuurlijk niets aan de data. Hierin moet je goede afwegingen maken. Wat is van belang om naar buiten te brengen en wat niet?”

We hebben het gehad over onderzoek dat met publiek geld betaald is. Dat moet geopenbaard, aldus het Nationaal Plan Open Science. Voor onderzoek dat is bekostigd door bedrijven geldt deze afspraak niet. Daar zijn bedrijfsbelangen in het geding. Maar hiertussen zit een groot grijs gebied. Wetenschappers genieten een overheidssalaris en maken gebruik van de faciliteiten van de universiteit. Onderzoek aan universiteiten is dus altijd deels door het publiek betaald. Hoe gaan jullie om met dit grijze gebied?

Van Wezenbeek: “In het plan staat dat het uitgangspunt moet zijn dat onderzoek in principe openbaar wordt. Als er argumenten zijn om het niet te doen, bijvoorbeeld bedrijfsbelangen, kan daarvan worden afgeweken. Maar open access is de default. We hanteren het adagium “as open as possible, as closed as necessary”.

Vanwaar jullie interesse in deze ontwikkelingen?

Houben: “We zien nu dat data steeds meer gebruikt worden buiten de context waar ze in eerste instantie voor verzameld werden. Dat betekent dat je er meer metadata aan moet toevoegen. Hoe kunnen we technologie aanreiken die dat proces verbetert? Voor mij als data scientist is dat een interessante uitdaging.”
Van Wezenbeek: “Ik ben ervan overtuigd dat je een betere student, docent of onderzoeker wordt als je gebruik maakt van kennis van anderen en je kennis deelt. Daar geloof ik in. We hebben al honderden jaren wetenschapstijdschriften waarvoor je moet betalen. En dan krijg je alleen de uitwerking van onderzoek te lezen. Nu is er zoveel meer gaande. Ik vind het mooi om daar een bijdrage aan te leveren.”

Dit artikel werd eerder gepubliceerd in Delft Integraal, het wetenschapsblad van de TU Delft.

Wilma van Wezenbeek: “Onderzoekgegevens moeten de maatschappij ten goede komen, zeker als ze met behulp van publieke middelen zijn verzameld.”
CV

Ir. Wilma van Wezenbeek is sinds 2011 directeur van de TU Delft Library. Ze is dit jaar benoemd tot programmamanager Open access bij de VSNU en is hoofdauteur van het rapport Nationaal Plan Open science.

Geert-Jan Houben: “Door data te delen creëer je een vorm van peer review die veel verder reikt dan de collegiale toetsing die we nu kennen in de tijdschriftenwereld.”
CV

Prof.dr.ir. Geert-Jan Houben is hoogleraar Web Information Systems bij de faculteit EWI. Hij is daarnaast wetenschappelijk directeur van Delft Data Science en houder van de KIVI-leerstoel Big Data Science. Hij is tevens directeur onderwijs van de faculteit EWI.

Redacteur Tomas van Dijk

Heb je een vraag of opmerking over dit artikel?

tomas.vandijk@tudelft.nl

Comments are closed.