Data date

Wetenschappelijk onderzoek kan niet zonder goede data en onderzoeksinstrumenten. Maar waar worden de bijzondere of zelfs precaire studiematerialen hiervoor eigenlijk bewaard? En hoe gaat zo’n ondersteunende organisatie te werk? Deze keer: van criminologie tot kernfysica, onderzoek leidt tot exponentieel groeiende terabytes aan data. Hoe sla je die veilig en efficiënt op? En hoe maak je die data toegankelijk en doorzoekbaar? Gespecialiseerde centra en data stewards zorgen voor de essentiële infrastructuur.

Twee personen in korrelig beeld

Tekst: Nienke Beintema

‘Goede dataopslag is cruciaal als je de kwaliteit van wetenschap wil waarborgen’, stelt Henk Wals, directeur van Data Archiving and Networked Services (DANS). Dit instituut van NWO en KNAW is het nationale servicecentrum voor opslag en beheer van onderzoeksdata. ‘Gelukkig ligt deze kwestie niet meer bij de wetenschapper alleen. Er zijn specialisten die zich hiermee bezighouden en er komt een steeds betere infrastructuur.’

Tweehonderdduizend datasets

DANS is een van de grootste archieven voor onderzoeksdata ter wereld en beheert bijna tweehonderdduizend datasets. Naast DANS zijn er in Nederland nog enkele repositories voor verschillende domeinen, zoals het 4TUdata voor de technologische wetenschappen.

In Nederland is nog geen kwart van alle data goed opgeslagen

Via het Nationaal Plan Open Science wordt daar een gezamenlijke structuur in aangebracht. Wals: ‘Je hebt de data zoals een onderzoeker die op een laptop heeft opgeslagen. Daarnaast staan de data vaak ook in een repository van de instelling. En dan zijn er domeingerichte instellingen waar die data bij elkaar komen.’

Coördinatie op grote thema’s

Alle universiteiten zijn bezig lokale Digitale Competentie Centra (DCC’s) op te richten, met data stewards die onderzoekers ondersteunen bij een consistente opbouw, opslag en doorzoekbaarheid van hun datasets. Daarnaast wordt gewerkt aan de oprichting van thematische DCC’s: een infrastructuur voor de nationale coördinatie op grote thema’s, zoals klimaatverandering of de coronapandemie. Deze thema’s vragen om data-uitwisseling en samenwerking tussen verschillende disciplines. Ook daar zijn 4TU en DANS nauw bij betrokken. ‘En tot slot is er een structuur voor de internationale coördinatie.’

Restricties

‘Het gaat niet alleen om de fysieke infrastructuur’, zegt Wals. ‘Er zitten ook veel niet-tastbare aspecten aan. Bijvoorbeeld de standaarden waaraan de data moeten voldoen, zoals de FAIR-principes: findable, accessible, interoperable en reusable. Toegankelijk betekent overigens niet dat iedereen zomaar bij alle data moet kunnen. Soms zijn data privacygevoelig. In de metadata – de labels die aan de data hangen – staat welke restricties er gelden en hoe de toegang is geregeld.’

Wat wordt waar geproduceerd?

De laatste decennia is er veel vooruitgang geboekt. Toch is in Nederland naar schatting nog geen kwart van alle data goed opgeslagen. ‘Eigenlijk weten we niet eens wat er precies wordt geproduceerd en waar, en wie dat opslaat. Daarom zijn die data stewards zo belangrijk: zij zorgen dat het databeheer vanaf het begin zorgvuldig gebeurt.’ Ook de uitwisselbaarheid tussen de verschillende domeinen laat nog te wensen over. Nu is het vaak een kwestie van knutselen met datasets. ‘Terwijl je – bijvoorbeeld bij de coronapandemie – snel verschillende data bij elkaar wil krijgen. Databeheer is een urgente maatschappelijke uitdaging.’


De data steward: ‘Hoe eerder en beter je de data managet, hoe bruikbaarder ze zijn’

De TU Delft is een koploper als het gaat om data-infrastructuur. Al sinds 2017 heeft elke faculteit minimaal één data steward. ‘Er moet een cultuurverandering plaatsvinden’, stelt Kees den Heijer, een van de allereerste data stewards bij de TU Delft. ‘Onderzoekers moeten de FAIR-principes al éérder in hun onderzoeksproces meenemen. Een datamanagementplan helpt om hier al in een vroeg stadium over na te denken.’ De Delftse data stewards werkten aanvankelijk met onderzoekers die zelf aangaven behoefte te hebben aan ondersteuning. Maar gaandeweg zijn ze ook onderzoekers gaan benaderen die minder gemotiveerd waren of zich nauwelijks bewust waren van de uitdagingen.

Sommige onderzoekers zijn zich nauwelijks bewust van de uitdagingen

Kees den Heijer

De rol van de data steward is puur adviserend, het is niet zo dat ze het databeheer overnemen. De ondersteuning bestaat uit cursussen en begeleiding van vakgroepen of individuele onderzoekers. Den Heijer: ‘Het bestandsformaat is al van belang. Hoe krijg je je data binnen: zijn het ingevulde vragenlijsten of gaat het om getallen die binnenstromen vanuit een instrument? Welke metadata zijn belangrijk? Welke stappen zijn nodig om je onderzoek reproduceerbaar te maken? Hoe eerder en beter je dit managet, hoe bruikbaarder de data zijn op de korte én lange termijn.’

Vaak zijn data stewards zelf gepromoveerd binnen de betreffende faculteit. Ze hebben binding met het vakgebied en hebben zich verdiept in de data formats, methoden en voorkeuren. ‘Je hoeft niet overal verstand van te hebben, maar je moet wel die constructieve dialoog kunnen voeren met een onderzoeker. Geleidelijk krijg je daar handigheid in.’ Door het succes van de data stewards en geholpen door financiering vanuit de NWO-call ‘Lokale Digitale Competitie Centra’ heeft de TU Delft nu een DCC, waarin naast data stewards ook data managers en research software engineers werken. ‘Zij bieden praktische ondersteuning aan onderzoekers bij hun data en software-uitdagingen.’


De onderzoeker: ‘Ik kan me niet voorstellen hoe ik mijn werk had kunnen doen zonder deze steun’

PhD Valeria Pannunzio onderzoekt hoe je sensordata kunt gebruiken voor het ontwikkelen van zinvolle systemen voor cardiovasculaire zorg, aan de faculteit Industrieel Ontwerpen van de TU Delft. ‘Niet altijd makkelijk’, vertelt ze. ‘Naast de statistische en technologische uitdagingen zijn de zorggegevens vaak privacygevoelig.’ Pannunzio is lid van de Open Science Community Delft (OSCD), die wordt ondersteund door data stewards. Het OSCD is onderdeel van de infrastructuur die Kees den Heijer en collega’s hebben opgezet. Broodnodig, zoals blijkt uit een citaat van Pannunzio op de OSCD-website: ‘Ik zou andere onderzoekers graag alle pijn willen besparen die ik heb doorgemaakt bij het plannen van mijn datamanagement!’

Ze lacht als ze aan die uitspraak terugdenkt. ‘Maar het is echt waar. Toen ik in 2018 aan mijn onderzoek begon, was er nog weinig infrastructuur voor datamanagement. Inmiddels hebben we de OSCD en data stewards, en promovendi kunnen cursussen datamanagement volgen. Ik kan me niet voorstellen hoe ik mijn werk had kunnen doen zonder deze steun.’

We willen data slim toepassen, zonder de privacyregels te schenden

Valeria Pannunzio

Pannunzio werkt met gegevens die patiënten verzamelen via zelfmonitoring. Het team onderzoekt hoe ze deze data kunnen gebruiken om een bepaald niveau van ‘slimheid’ toe te passen, zonder de privacyregels te schenden. Eenvoudig is dat niet, vanuit het oogpunt van datamanagement. ‘Samen met de data steward bedachten we een oplossing waarbij we gebruikmaken van een bestaande open-sourcewebsite die de deelnemers gebruiken om hun data met elkaar te delen. Met wat aanpassingen konden we die gegevens anoniem gebruiken, terwijl deelnemers elk moment hun data konden inzien of intrekken.’ Door de samenwerking met de data steward viel er een last van Pannunzio’s schouders. Haar datamanagementplan werd uiteindelijk óók onderwerp van het onderzoek. ‘Het bracht me op onderzoeksideeën die ik anders niet zou hebben bedacht.’