Verslag Workshop Simple Data and Information Sharing

Verslag Workshop Simple Data and Information Sharing, georganiseerd door ESCAPE en DatapluS
gehouden op 29 oktober 2009, 13.00- 17.00 uur

Woord vooraf
De SURF-tender projecten ESCAPE en DatapluS vertonen de nodige overeenkomsten. Beide projecten richten zich op het ontwikkelen van tools waarmee wetenschappers op eenvoudige wijze publicaties kunnen verrijken. DatapluS heeft in dit kader een specifieker karakter, daar het zich richt op het leggen van relaties tussen publicaties en de datasets waarop die publicaties gebaseerd zijn.

ESCAPE is generieker in opzet: dit project houdt zich bezig met tools waarmee de wetenschapper allerlei soorten informatie aan elkaar kan relateren.

Veel projecten op het gebied van vernieuwing van de informatie-infrastructuur vinden plaats over de hoofden van de onderzoekers heen. Doel van deze workshop was dan ook om de visie en mening van onderzoekers te leren kennen (link naar uitnodiging plus toelichting opnemen).

De projectgroepen hebben ervoor gekozen het SURF-registratiesysteem te gebruiken voor de aanmeldingen. Dit systeem werkt heel prettig, omdat de organisatoren steeds een actueel beeld te zien krijgen van degenen die zich hebben aangemeld. Het SURF-registratiesysteem blijkt ook een onverwacht effect te hebben: het is vooral bekend onder mensen uit de wereld van bibliotheken en informatiecentra. Veel ‘bibliotheekmensen’ blijken zich aangesproken te hebben gevoeld door het programma en hebben zich aangemeld voor de primair op onderzoekers gerichte workshop . Uiteindelijk blijkt ca. 50 % van de aanwezigen (40 personen) uit de bibliotheekwereld afkomstig te zijn.

De organisatoren hebben de structuur van de middag ongewijzigd gelaten. Begonnen is met een beperkt aantal verhelderende en boeiende inleidingen. Hierna is er plenair gediscussieerd (dus door zowel de onderzoekers en als de mensen uit bibliotheken en informatiecentra).

1. Opening
Wegens persoonlijke omstandigheden is Esther Hoorn (RUG), projectleider ESCAPE, verhinderd. In haar plaats opent Maarten van Bentum (UTwente, ESCAPE) de workshop. Hij schetst het directe verband tussen het aanbrengen van relaties tussen diverse typen informatiebronnen en het achterliggende doel: de verbetering van de wetenschappelijke communicatie. Daarnaast licht hij het doel van de workshop toe: houdt de richting van deze projecten een belofte in voor de toekomst wat betreft de ondersteuning van wetenschappelijke communicatie

2. Toelichting op het aan elkaar relateren van informatie
Henk Ellerman (RUG; ESCAPE) stelt dat het momenteel op internet in de regel niet mogelijk is de samenhang tussen informatie-eenheden te zien. In deze tijd van een almaar uitdijend internet wordt de tijd rijp voor een nieuw paradigma waarin de onderlinge relaties tussen informatiebronnen zichtbaar worden gemaakt. Het toekennen van metadata aan informatie helpt wel iets, maar is niet afdoende.

Een geheel andere werkwijze is nodig, waarin de producent van informatie reeds op het moment van publiceren de relaties legt tussen het nieuwe gepubliceerde document (bijv. een publicatie) en andere informatiebronnen (datasets; films; audiofragmenten etc.). Dit model sluit aan bij de ontwikkelingen in het semantisch web (Linked Data Initiative).
In dit proces van relateren van informatie is nog een ontwikkeling het vermelden waard: het gereedkomen van OAI-ORE, eind 2008. Met OAI-ORE kunnen diverse samenhangende objecten als één geheel in de vorm van een Resource Map (ReM) worden gepresenteerd op een manier die ook voor machines begrijpelijk is. De relaties worden gelegd met gebruikmaking van publiek beschikbare vocabulaires.
Noot: er waren al zogeheten jump-off pages waarin dit soort informatie werd samengebracht, maar de onderlinge relaties waren hierin uitsluitend voor de mens begrijpelijk.

Voordeel van de werkwijze met Resource Maps is dat documenten beter vindbaar worden, zodat de kans op citatie en hergebruik toeneemt. Bij een volledige toepassing van het semantisch web wordt het huidige patroon (een vraag resulteert in een lijst zoekresultaten) doorbroken. De gebruiker zal daadwerkelijk antwoord krijgen op zijn vraag: zo ontstaat kennisrepresentatie.

3. Toepassing ESCAPE-tools in iCRiSP
Jan Gutteling (UTwente, leider van het Centre for Conflict, Risk and Safety Perception, iCRiSP), licht toe dat in iCRiSP aan vraagarticulatie wordt gedaan: het gaat om risicoperceptie-onderzoek en de vertaling van de resultaten van dat onderzoek in beleid. Hierbij zijn de diverse overheidsinstanties als vragers te zien en de onderzoekers als de beantwoorders.
iCRiSP is dus een voorbeeld van kennisvalorisatie. Anders dan vaak gedacht wordt valt het duurzaam laten landen van resultaten van onderzoek in de maatschappij ook onder kennisvalorisatie. Daarnaast verhoogt het project de zichtbaarheid van de betrokken onderzoekers.

ESCAPE wordt gebruikt om de relaties tussen de onderzoeksresultaten en de daarop gebaseerde beleidsnotities als één geheel (in de vorm van een Resource Map) te tonen. Het mooie van dit model is dat het uitbreidbaar is. Anderen kunnen hun commentaar toevoegen aan (onderdelen van) de ReM. Dit commentaar (of andersoortige aanvulling) wordt automatische onderdeel van die ReM: de samenhang blijft intact. Om de relaties tussen informatieobjecten inzichtelijk te houden wordt uitsluitend gewerkt met bestaande vocabulaires (via OWL-schema’s).

Hoewel openheid voorop staat, zal er toch de nodige discussie nodig zijn om te bepalen welke onderdelen van een ReM vrij toegankelijk worden gemaakt. Verder dient er gesproken te worden over wie welke rechten heeft om een bestaande ReM met extra informatie te verrijken. Het is voor te stellen dat onderzoekers deze rechten voorbehouden aan degenen die werkzaam zijn binnen hetzelfde onderzoeksterrein.

4. Toepassing ESCAPE tool in COOV
Michel Vols (RUG, medewerker COOV) licht toe wat de werkwijze van het Centrum voor Openbare Orde en Veiligheid (COOV) is. Binnen COOV houdt hij zich met name bezig met woonoverlast, met daarin de juridische aspecten van het conflict tussen privacy en overlastbestrijding.

COOV is gegrepen door het model van ESCAPE, OAI-ORE en Resource Maps (ReM), omdat op soortgelijke wijze als bij iCRiSP uitspraken, annotaties en de vertalingen hiervan voor juridische beleidsambtenaren voor burgers in één ReM kunnen worden getoond.

Een traditioneel systeem waarin met de hand wordt bijgehouden welke andere documenten in een document worden geciteerd en – nog lastiger – door welke andere documenten een reeds gepubliceerd document wordt geciteerd loopt vast door de snelle toename van de omvang van documenten op internet. Dit soort relaties moeten in de nabije toekomst automatisch te genereren zijn.
Net als bij iCRiSP speelt hier het probleem op de toegangsrechten tot onderdelen van de ReMs. Hoewel uitspraken en annotaties in principe openbaar zijn, is voor te stellen dat beleidsontwikkelaars hun hierop gebaseerde concepten niet vrij toegankelijk willen maken.

Aan de afzonderlijke onderdelen en aan de overkoepelende ReM zullen persistent identifiers toegekend moeten worden, zodat voor een ieder duidelijk wordt over welke informatiebronnen in welke context gesproken wordt.

Samengevat geven deze voorbeelden aan dat er zeker een meerwaarde voor tools als ESCAPE aantoonbaar is, omdat onderzoekers op deze wijze snel en eenvoudig een als één geheel herkenbaar raamwerk van elkaar gerelateerde informatiebronnen kunnen samenstellen.

De relaties worden gelegd met behulp van bekende en openbaar toegankelijke vocabulaires. De ReM en zijn onderdelen zullen alle persistent identifiers moeten hebben. Het regelen van toegang tot de onderdelen van de ReMs is maatwerk. Onderzoeksgroepen moeten de vrijheid hebben om bij elk onderdeel vast te leggen of er sprake is van Open Access, toegang na registratie of besloten toegang. Iets soortgelijks geldt voor het bewerken (aanvullen) van de ReM.

Uitgangspunt is dat de oorspronkelijk gepubliceerde ReM alleen door zijn makers kan worden gewijzigd. Anderen kunnen meer of minder of zelfs totaal geen rechten hebben om informatiebronnen toe te voegen aan de ReM of om commentaar de geven op de ReM (of een van zijn onderdelen).

5. DatapluS als use case
Ellen Verbakel (UvT; projectleider DatapluS) stelt dat DatapluS, hoewel gebruikmakend van andere tools dan ESCAPE, als een soort use case van het ESCAPE-project gezien kan worden.
In DatapluS werken onderzoekers met gegevens uit grote, brede enquêtes: de European Values Study (EVS) en het Nationaal Kiezers Onderzoek (NKO). In publicaties die op EVS zijn gebaseerd willen onderzoekers tonen hoe de constructen zijn geoperationaliseerd. Klassieke publicaties worden dus verrijkt met syntax, data en variabelen.

Om die verrijking mogelijk te maken is binnen DatapluS in samenwerking met CentERdata een Enhanced Publication Editor ontwikkeld. Met deze tool kan een onderzoeker de publicatie verrijken op een eenvoudige, intuïtieve manier. Dit geheel leidt tot een DDI 3.0 output.
Hoewel het systeem is ontworpen voor onderzoekers die werken met EVS- en NKO-data, is het model ook buiten dit gebied toepasbaar.

6. Discussie
Na deze inleidingen is er een discussie gevoerd met de aanwezigen (onderzoekers en mensen uit de bibliotheekwereld) onder leiding van Kees Aarts (UTwente; NKO).
Kees Aarts geeft de kenmerken van goed onderzoek: het moet reproduceerbaar zijn (daarom is het zo belangrijk dat achterliggende data worden gepubliceerd) en het moet de eigen bijdrage aan reeds bestaand onderzoek tonen (cumulatie). Verrijkte publicaties kunnen hierin hun nut hebben, maar daarnaast moet er in de discussie aandacht zijn voor het belang van de nieuwe tools voor het grote publiek.

Duidelijk is wel dat er een cultuuromslag c.q. gedragsverandering bij onderzoekers nodig is opdat zij bewuster om zullen gaan met het delen van informatiebronnen. Een financiële prikkel (subsidie afhankelijk maken van openbaar maken van datasets) zou hierbij kunnen helpen.

De levendige discussie gaat hierna over tal van onderwerpen. Hieronder wordt een beeld gegeven hoe er binnen de workshop tegen de verschillende onderwerpen werd aangekeken zonder in te gaan op alle individuele opmerkingen.

Veel aandacht gaat uit naar het item hoe onderzoekers over de streep getrokken kunnen worden om op moderne wijze te gaan publiceren. Op dit moment is het verrijken van publicaties nog niet voldoende common practice dat onderzoekers automatisch bereid zijn dit te doen. Als gevolg is de algemene wetenschappelijke norm om openheid te geven over onderzoek niet voldoende hen te overtuigen, maar zijn er externe prikkels nodig.

Genoemd is al de financiële prikkel. Hierbij zouden NWO en KNAW een belangrijke rol kunnen spelen. Als eis bij subsidieverlening zou gesteld kunnen worden dat geproduceerde data bij bijv. DANS gedeponeerd zouden moeten worden (zie ook de relatie met ARVODI). Aanvullende eis is dat publicaties en data en de syntax alle vrij toegankelijk moeten zijn. Wel zal niet overal de bereidheid even groot zijn (medisch onderzoek!).

Een eis van vooraanstaande wetenschappelijke tijdschriften publicaties te voorzien van verrijkingen, bijvoorbeeld in de vorm van data en syntax, zou eveneens productief kunnen werken. In sommige vakgebieden worden deze eisen gebruikelijker, bij andere vakgebieden is dit nog absoluut niet het geval. Hiernaast is een voorwaarde voor succes dat het gemakkelijk moet zijn verrijkte publicaties (VP’s) samen te stellen.

Belangrijker is echter dat onderzoekers zich bewust moeten worden van de meerwaarde van VP’s: ze vergroten de zichtbaarheid van de onderzoeksgroep, ze vergroten de kans op extra aanvullende subsidies en ze vergroten de kans op het aantrekken van nieuwe veelbelovende onderzoekers.

Zoals bij de inleidingen al is gesteld, komt ook in de discussie terug dat er wel zorgvuldig met intellectueel eigendomsrecht moet worden omgegaan, zodat helder is wat een individuele gebruiker mag doen met de VP of een van haar onderdelen.

Tussen de disciplines bestaan verschillen. Zo is het voor de biologische disciplines nog geen uitgemaakte zaak waar data gedeponeerd zouden moeten worden. Het idee om data vrij toegankelijk te maken is opgepikt door NWO. NWO overweegt de eis te stellen dat data na een embargo van maximaal twee jaar vrij beschikbaar moeten zijn gemaakt.

In dit verband moet ook gezegd worden dat anders dan bij ‘klassieke’ publicaties, de eigendom van geproduceerde data in de regel de werkgever (universiteit; NWO; KNAW) is. In principe hebben de besturen dus veel meer mogelijkheden om het openbaar maken van data af te dwingen. In de praktijk valt het wat betreft de actieve bemoeienis nog erg tegen.

Om uit de impasse rond het Open Access toegankelijk maken van publicaties en data te komen, zou er een taak kunnen liggen voor de overheid. Deze zou in direct contact met Nederlandse uitgevers Open Access moeten bepleiten.

De discussie die tijdens de workshop gevoerd wordt gaat feitelijk over twee, aan elkaar gerelateerde onderwerpen:

– Het nut van verrijkte publicaties
– Het gebruik (door wetenschappers) van tools om Enhanced Publications samen te stellen (beide onderwerpen zijn ook nog eens gekoppeld aan Open Access beleid).

De tools die ontwikkeld worden moeten simpel te gebruiken zijn en de onderzoekers geen tijd en moeite kosten. Het risico bestaat dat er te weinig kritische massa gaat ontstaan: als er haast geen Enhanced Publications worden geproduceerd, wordt er niet geïnvesteerd in verbetering van de tools, wordt er niets ontwikkeld om Enhanced Publications correct te presenteren in systemen als NARCIS (m.a.w. : er wordt niets gedaan aan de vernieuwing van de informatie-infrastructuur) en worden andere onderzoekers niet aangemoedigd te stap te wagen om hun publicaties te gaan verrijken.

Los van de eerder genoemde druk die kan uitgaan van de subsidieverleners, zou het kunnen helpen als uitgevers gaan eisen dat publicaties alleen in combinatie met de achterliggende data kunnen worden aangeboden.

Je zou de verrijking van publicaties aan bibliotheekpersoneel kunnen overlaten, maar dat heeft als nadeel dat dat vaak niet weet wat aan elkaar gerelateerd moet worden. Het is dus beter de workflow van de onderzoeker aan te passen: hij moet tijdens het schrijven al de relaties leggen. Op dat moment kost dat de minste moeite.

Ook moet de onderzoeker – of hij wil of niet – aan versiebeheer gaan doen. Veel datasets veranderen in de tijd. Het is dus belangrijk aan te geven welke versie van de database (of in het geval van een dynamische database: de datum waarop deze is geraadpleegd) is gebruikt bij het schrijven van de kernpublicatie (traditionele publicatie). Het gebruik van identifiers is hierbij een must. Hier ligt eveneens een taak voor data-archieven.

Een andere vraag is of onderzoekers nog andere hulpmiddelen nodig zouden hebben naast de editing/authoring tools? Als we deze vraag betrekken op ESCAPE dan lijkt er behoefte aan het opzetten van communities, het grafische weergeven van ReM’s (zodat deze toegankelijker worden) en een regelbare centrale toegang tot het ESCAPE systeem (samenhangend met het toewijzen van rechten).

ESCAPE is een generieke tool. Toch kun je je voorstellen dat er binnen een bepaalde discipline specifieke behoeften bestaan die afwijken van die van de overige disciplines. Het is niet zonder risico ESCAPE aan zulke specifieke wensen aan te passen. Het gevaar van de ontwikkeling van een onoverzichtelijke kluwen ligt op de loer. Het zou wellicht beter kunnen zijn om bijv. alleen de metadatavelden desgewenst discipline-afhankelijk aan te bieden. Dit kan het systeem zonder problemen aan.
De kracht van ESCAPE – het toepassen van vondsten uit het semantisch web om informatie te vinden – moet niet overboord gezet worden.

7. Vervolgacties
Het bieden van informatiebundels (zoals je de enhanced publications ook zou kunnen noemen) is duidelijk vernieuwend.

SURF (jaarplan 2010) heeft de intentie volgend jaar verder te gaan met Enhanced Publications. Hierbij kunnen twee niveaus worden onderscheiden:

– Technisch/infrastructureel niveau: aanpassing repositories aan EP’s; verder ontwikkelen van authoring tool
– Organisatorisch-/Kennisniveau: voorlichting aan onderzoekers over de mogelijkheden van EP’s.

SURF denkt aan Roadshows; financieren van kleinere projecten en het leggen van een relatie met de NARCIS/KNAW infrastructuur.
SURF kan niet alles alleen. De instellingen zelf zouden ook middelen moeten vrijmaken om de ontwikkeling van verrijkte publicaties te simuleren. Bij het bevorderen van de ontwikkeling van de infrastructuur zou sterk ingezet moeten worden op het toekennen van identifiers aan alle onderdelen van een EP (zoals al eerder opgemerkt).

Het jaar 2010 zou moeten worden beschouwd als opbouwjaar. Het streven zou moeten zijn in 2011 een voltooide infrastructuur te tonen waarmee veel meer onderzoekers overtuigd van het nut van EP’s zouden kunnen worden.

Arjan Hogenaar,
4-11-2009

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s


%d bloggers like this: