Open data

Een digitale snoeptrommel

Open source, open science en open access zijn trends in de wetenschap. Daarmee wordt een zorgvuldig databeheer steeds belangrijker. Een onlangs gelanceerd internationaal keurmerk nodigt uit om data te delen.

Tekst: Marion de Boo

Open data... als (digitale) snoepjes

Data-archieven zijn ware schatkamers. Wetenschappers besteden veel tijd en energie aan het verzamelen van gegevens. Maar als het artikel eenmaal gepubliceerd is of het proefschrift afgerond, verdwijnen hun datasets vaak in een la, ze liggen te verstoffen in een archief of staan op een harde schijf die na een paar jaar is vergaan. De onderzoeker kijkt er niet meer naar om. Die heeft een nieuwe baan of andere interesses; zijn website houdt hij niet meer bij. Om nog maar te zwijgen van de laptop vol unieke onderzoeksgegevens die uit de auto wordt gestolen of per ongeluk achterblijft in de trein.

Als datasets wél duurzaam en open worden opgeslagen, kunnen andere onderzoekers daar weer waardevolle informatie uit putten. Want zij ‘staan op de schouders van reuzen’, zoals Einstein al zei. Daarom besloten NWO en de Koninklijke Nederlandse Akademie van Wetenschappen in 2005 tot de oprichting van DANS, het Nederlands instituut voor duurzame toegang tot digitale onderzoeksgegevens. Er zijn inmiddels zo’n 40.000 datasets bij DANS opgeslagen en ruwweg eenzelfde aantal wordt jaarlijks door onderzoekers opgevraagd. ‘Het aandeel open data is in enkele jaren gestegen van 40 naar zo’n 70 procent’, vertelt directeur Peter Doorn van DANS. ‘Deels als gevolg van een mentaliteitsverandering bij onderzoekers en deels afgedwongen door onderzoeksfinanciers.’

Fraudebestrijding

Goed opgeslagen data dienen ook transparantie, een waarde die steeds belangrijker wordt in de wetenschap. Doorn: ‘Er zijn door de jaren heen conventies ontstaan over het correct citeren van onderzoeksliteratuur. Voor de controleerbaarheid van onderliggende onderzoeksgegevens zouden er net zulke heldere normen moeten zijn.’ Transparante datasets bemoeilijken het frauderen in de wetenschap en zorgen dat toekomstige onderzoekers resultaten van hun voorgangers kunnen verifiëren. Hoe is dit project precies aangepakt? Kloppen de conclusies?’ Data delen is niet alleen efficiënt, het heeft ook interessante bijeffecten. Soms ontstaan contacten tussen onderzoekers die op verschillende plekken in de wereld aan hetzelfde thema werken. En wie zijn data beschikbaar stelt, vergroot volgens Doorn zijn bekendheid als onderzoeker en wordt vaker geciteerd. Bang dat anderen met je materiaal aan de haal gaan? Dat is niet nodig. Bij DANS kan de eigenaar van de data zelf bepalen wie onder welke voorwaarden toegang tot het materiaal krijgen.

Core Trust Seal

Dataopslagorganisaties moeten tegenwoordig aan strenge eisen voldoen. Onlangs werd hiervoor een internationaal keurmerk gelanceerd: het Core Trust Seal. Een zorgvuldige databeheerder gebruikt bijvoorbeeld een persistent identifier, net zoals boeken een ISBN-nummer hebben. Mocht een dataset dan toch aan het zwerven raken, dan is hij altijd te herleiden. Bovendien moeten de data goed gemetadateerd en gedocumenteerd zijn, en naderhand aangebrachte veranderingen in de oorspronkelijke data duidelijk herkenbaar. Ook moet de dataopslagorganisatie de toegangslicenties bewaken. Doorn: ‘De veiligheid van de opslag en de privacy van onderzoekspersonen moeten gegarandeerd zijn. Uiteraard is de digitale kluis goed beveiligd tegen hackers. Als een onderzoeker zijn datasets toevertrouwt aan een opslagplaats met het Core Trust Seal kan hij erop vertrouwen dat zijn data in veilige handen zijn. In de internationale wetenschap bestaan zo’n tweeduizend dataopslagplaatsen, waarvan er inmid-dels enkele honderden gecertificeerd zijn met het Core Trust Seal. Daar zijn wij blij mee.’

Populaire datasets

  • Nationaal Kiezersonderzoek
    Een veel geraadpleegde dataset komt van het Nationaal Kiezersonderzoek. Dit wordt sinds 1971 gehouden rond de Tweede-Kamerverkiezingen. Wetenschappers, media en politieke partijen vinden hier een rijke bron van informatie over bijna vijftig jaar kiesgedrag. Hoe stemden de Nederlanders? Welke rol speelde geloof in de samenleving? Hoe tevreden was men over de zittende regering?
  • Veroudering
    Ook medische datasets worden veel geraadpleegd. De databank van DANS bevat een deel van de gegevens van zo’n 5000 ouderen die sinds 1991 deelnemen aan de Longitudinal Aging Study Amsterdam (LASA) van VU Medisch Centrum. De studie brengt het functioneren en welbevinden van ouderen in kaart. Welke invloed heeft bijvoorbeeld leefstijl op het geheugen? Vertraagt musiceren de cognitieve veroudering? Welke belemmeringen ondervinden ouderen met artrose in hun dagelijks leven? Beschermt verbondenheid oudere migranten tegen eenzaamheid?
  • Epidemiologie
    Veel epidemiologisch onderzoek is gebaseerd op hergebruik van data over ziekte en gezondheid. Individuele patiëntgegevens worden samengevoegd en geanonimiseerd om vervolgens patronen te kunnen ontdekken in bijvoorbeeld de verspreiding van virussen. 
  • Scheepsreizen
    Tijdens historische scheepsreizen werden iedere paar uur weer-waarnemingen gedaan en opgeschreven in scheepslogboeken. De windkracht werd gemeten als bijvoorbeeld ‘een frissche stijve marszeilskoelte’ of ‘zeilen waaien uit de lijken’. Windkracht op de schaal van Beaufort bestond voor 1805 nog niet. Duizenden waarnemingen van honderden scheepsreizen zijn door meteorologen gecombineerd in klimaatmodellen. Zo konden gegevens over het klimaat op zee worden gereconstrueerd.
  • Archeologie
    De collectie bevat veel archeologisch materiaal, gegevens van dui-zenden individuele opgravingen en proefboringen. Tekeningen, foto’s, kaarten… Juist door zulke gegevens te combineren krijg je meer zicht op de vraag hoe een beschaving zich heeft ontwikkeld en verspreid. Ook wordt het mogelijk archeologische ‘verwachtingskaarten’ te maken, die aangeven wat veelbelovende plekken zijn om te gaan graven.