CLARIAH organiseerde op 9 oktober jongstleden in het kader van de Week van het Nederlands een virtueel OpenSoNaR Tutorial.

OpenSoNar is een webapplicatie om te zoeken in het SoNaR corpus en het CGN-corpus. SoNaR bevat meer dan 500 miljoen voorkomens van woorden uit in het Nederlands geschreven bronnen uit Nederland en Vlaanderen. Het Corpus Gesproken Nederlands (CGN) is een collectie van 900 uur getranscribeerde spraak met ongeveer 9 miljoen voorkomens van woorden van sprekers uit Nederland en Vlaanderen.

De belangstelling voor het tutorial was overweldigend. Er waren meer dan 30 deelnemers. Het tutorial moest in verband met de Covid-19 pandemie online gehouden worden. Dat heeft natuurlijk grote nadelen, maar ook voordelen. Het online karakter maakte het mogelijk dat deelnemers van over de hele wereld meedoen en we zagen dan ook niet alleen deelnemers uit Nederland, maar ook uit België, en zelfs uit Curaçao, Zweden, Duitsland, Canada en Zuid-Afrika.

Na een inleidende presentatie over OpenSoNaR door Jan Odijk (UU) werden de vier verschillende interfaces die OpenSoNaR biedt één voor één geïntroduceerd, samen met de mogelijkheden voor analyse van de zoekresultaten. Carole Tiberius (INT) introduceerde de Simple interface waarmee men naar woorden en sequenties van woorden kan zoeken, de Extended interface waarmee men naar woorden op basis van hun lemma (de vorm van het woord die je in een woordenboek vindt) en woordsoort kan zoeken, en de Advanced interface die een grafische interface biedt om complexe zoekopdrachten in de vorm van reguliere expressies te maken. Tot slot introduceerde Jan Odijk de Expert interface, die zoekopdrachten in de Corpus Query Processor Language mogelijk maakt. Na iedere introductie van een interface werd gelegenheid geboden voor de deelnemers om oefeningen te maken met deze interface. Een team van zeven experts stond klaar om vragen en problemen van deelnemers te bespreken in aparte ‘break-out rooms’, en daar werd flink gebruik van gemaakt.

'Hartelijk dank voor de leerzame en interessante tutorial.
Als zij-instromer in de (corpus) linguïstiek heb ik er veel van geleerd.

Gonneke Groenen (Noordwes-Universiteit, Zuid-Afrika)'

De deelnemers waren enthousiast over het tutorial, getuige spontane reacties (zie kader) en de (anonieme) reacties in de evaluatiesurvey (bijv. ‘Het was beter en nuttiger dan ik had verwacht. Ik heb veel geleerd. De voorbeelden waren bijzonder nuttig.’), maar zij wezen ons ook op verbeterpunten (zoals meer tijd inruimen voor de oefeningen, en voor pauzes).

Het tutorial werd afgesloten met een sessie waarin aangegeven werd welke andere applicaties voor corpus-gebaseerd onderzoek CLARIAH biedt. We zijn van plan voor enkele van die andere applicaties binnenkort ook tutorials te organiseren. Interesse hiervoor kan gemeld worden via  .

'Van harte dank voor de opleiding van vrijdag.
Het was heel interessant en ik ben van plan om van SoNaR gebruik te maken voor mijn proefschrift.
'
Nathanaël Stilmant (Université de Mons, België)'

Over OpenSoNaR Tutorial

De presentaties, de oefeningen en een link naar de oplossingen van de oefeningen zijn allemaal beschikbaar via deze link.

Het tutorial is opgenomen, en de opnaes zijn hier beschikbaar: https://www.clariah.nl/disseminatie/open-sonar/open-sonar .

Link naar OpenSoNaR: http://opensonar.clarin.inl.nl/ 

OpenSoNaR vereist login. Dat kan met het account van je eigen instelling van hoger onderwijs, als je daaraan verbonden bent.
Anders moet je een account aanvragen bij CLARIN ERIC.

Over de docenten

De docenten waren Jan Odijk (Universiteit Utrecht), Jesse de Does, Katrien Depuydt, Kris Heylen, Jan Niestadt, Carole Tiberius, en Vincent Vandeghinste (allen Instituut voor de Nederlandse Taal).
Zij hebben allen veel ervaring met het werken met OpenSoNaR, hebben er al eerder in andere verbanden over onderwezen, en enkelen van hen hebben bijgedragen aan de ontwikkeling van OpenSoNaR.

 

door: Tom Slootweg (Universiteit Utrecht)

Stef Scagliola lanceert het onderwijsplatform Ranke.2Digital Hermeneutics kenmerkt zich door haar “in-betweenness”, zo opende historicus Andreas Fickers de tweedaagse conferentie op de indrukwekkende Belval-campus van de Université de Luxembourg. Vanwege de voortschrijdende digitalisering van het vakgebied en de beschikbare bronnen, aldus Fickers, begeeft het historisch onderzoek zich in toenemende mate in een spanningsveld waarin statistische bewijskracht en historische relevantie tegen elkaar aan schuren. Toch ziet hij veel nieuwe kansen waar het gaat om het ontwikkelen van een brede “multimodal literacy” en nieuwe, meer hybride onderzoekspraktijken. Gedurende de twee dagen verkende het congres de theoretische maar ook praktische implicaties van de digitalisering voor historisch onderzoek en onderwijs. Met name de veranderende opvattingen omtrent didactiek en onderzoeksvaardigheden stonden centraal in een behoorlijk aantal papers en workshops.

Zo presenteerde Tim van der Heijden (Universiteit Luxemburg) een interessant paper waarin hij de eerste bevindingen van zijn postdoctorale onderzoek uiteenzette. Als coördinator van de doctoral training unit (DTU) van C²DH, het Luxemburgse centrum voor Digital Hermeneutics, met een veelvoud aan interdisciplinaire promotieprojecten, onderzoekt hij het proces waarin een nieuwe generatie, meer hybride historici wordt opgeleid. Het trainingsprogramma kent vele mogelijkheden en uitdagingen. De DTU biedt promovendi een breed programma aan waarin zowel praktische digitale vaardigheden worden bijgebracht, maar ook een kritische houding ten opzichte van data, tools en code. De grootste uitdaging, zo benadrukte Van der Heijden, ligt in het vinden van een “common ground” en het ontwikkelen van een “inter-language” om de interdisciplinaire samenwerking op een productieve wijze gegrondvest te krijgen.

Het was uiteraard niet zonder reden dat er bijzondere aandacht was voor onderwijs en training tijdens het congres. Op donderdagmiddag presenteerden Andreas Fickers en Stef Scagliola (Universiteit Luxemburg) namelijk het gloednieuwe onderwijsplatform Ranke.2. Met het vrijwel voltallige projectteam werd deze visueel aantrekkelijke onderwijsomgeving gelanceerd. Ranke.2 richt zich in het bijzonder op het aanleren van vaardigheden die betrekking hebben op digitale bronnenkritiek. Drie basale uitgangspunten lagen ten grondslag aan de ontwikkeling van het platform: (1) het gevoelig maken voor, en het gelijktijdig (2) problematiseren en (3) concreet maken van het werken met digitale bronnen door studenten. Scagliola benadrukte echter wel dat het verstandig is om de te ontwikkelen onderwijsmodules aan te laten sluiten op een gedifferentieerd model van kennisniveaus en onderzoeksvaardigheden. Kort gezegd dienen de cursussen idealiter een spectrum te bestrijken van “data novices” tot “algorithmic literacy”.

Eerder die dag betoogde Joris van Zundert (Huygens ING) al dat met name de “code literacy” onder letterenonderzoekers verder ontwikkeld moet worden. Er is haast geboden met het trainen van onderzoekers die in staat zijn om de software-code die ten grondslag ligt aan digitale informatie te interpreteren. Computerwetenschappers negeren vaak de contextualiteit van data en maken bovendien zelden een onderscheid tussen informatie en data. Volgens Van Zundert zou Digital Hermeneutics zich daarom moeten toeleggen op het verkennen van een “domain specific language” waarmee “hermeneutic reasoning” mogelijk wordt. Van Zundert realiseert zich dat het nog altijd lastig is om geesteswetenschappers te enthousiasmeren voor het ontwikkelen van hun eigen “code literacy”. Vaak wordt een diepgeworteld verzet tegen de vele facetten van de “digital turn” als reden aangedragen, maar Van Zundert betwijfelt of dat daadwerkelijk het geval is. Deze constatering zou bij uitstek aanleiding kunnen zijn voor nader onderzoek naar dit fenomeen.

Joris van Zundert betoogt dat geesteswetenschappers aan hun “code literacy” moeten werken.

De tweede dag van het congres was meer praktisch van aard. Naast een keynote van Julia Noordegraaf over de vele mogelijkheden van de CLARIAH Media Suite, stond een tweetal workshops op het programma waarin wederom training en onderwijs centraal stonden. De eerste onderwijsgerelateerde workshop werd geleid door Gerben Zaagsma (Universiteit Luxemburg) en de Amerikaanse historicus John Randolph (University of Illinois Urbana-Champaign). Randolph gebruikte het open-source publicatieplatform Scalar om SourceLab te ontwikkelen: een omgeving waarin geschiedenisstudenten ge-peer-reviewede, kritische edities van digitale bronnen kunnen publiceren. De andere workshop werd georganiseerd door Ilja Nieuwland (Huygens ING). Hij nodigde de deelnemers uit om na te denken over de “bare minimum” aan vaardigheden en geletterdheid van hedendaagse en toekomstige historici. De resultaten van de levendige brainstormsessies, aangevuld met verder onderzoek, zullen volgend jaar door Nieuwland gepresenteerd worden.

Er was kortom veel te leren over leren op het tweedaagse congres. Deze blogpost heeft zich met name gericht op onderzoek en training, maar er waren nog vele andere bijdragen aan het congres waarin methodologische vernieuwing en transparantie aan bod kwamen. Ook werd er uitgebreid gereflecteerd op de noodzaak van allerlei waarborgen om de duurzaamheid en continuïteit te garanderen van de nieuwe digitale tools, data en infrastructuren. Het volledige programma is hier te vinden.

 

Logo neerlandistiek

Door Jan Odijk.
Deze blog is eerder verschenen in Neerlandistiek

Naar aanleiding van Sterre Leufkens’ overzicht van enkele hoogtepunten van digitale bronnen (in deNeerlandistiek van 6 september 2019) zou ik de Neerlandistiek-gemeenschap erop willen wijzen dat er nog veel meer aan digitale data en software is die van belang kan zijn voor Neerlandici. Heel veel van die data en software is beschikbaar gemaakt in het kader van de CLARIN-infrastructuur, en ontwikkeld in Nederlandse projecten hiervoor zoals CLARIN-NL en CLARIAH-CORE.

Ik noem eerst een aantal overzichten van data en software:

Ik zou er ook op willen wijzen dat, voor het Corpus Gesproken Nederlands, zonder te downloaden, en zonder te hoeven programmeren of een querytaal te kennen:

Tot slot: dat applicaties als PaQuGrETEL 4.0 (in ontwikkeling maar al te gebruiken) en AutoSearch (waarvan binnenkort een upgrade zal verschijnen) het toelaten je eigen corpus of dataset in te laden en te doorzoeken op grammaticale eigenschappen.

Zonder login
Heel veel applicaties en data zijn toegankelijk zonder enige login. Als er wel een login nodig is dan kan dat in de meeste gevallen via het account van de onderzoeksinstelling waaraan je verbonden bent. Als je niet verbonden bent aan een onderzoeksinstelling dan kun je een account aanvragen bij CLARIN ERIC. Dat zal voor niet-commerciële activiteiten vrijwel altijd gehonoreerd worden. Voor commerciële activiteiten moeten er speciale afspraken gemaakt worden.

Voor meer informatie hierover, en ook om eventueel een cursus of hands-on-sessie te volgen om dergelijke tools optimaal te gebruiken (of als je zelf zo’n cursus zou willen geven met behulp van de educatieve pakketten die hiervoor ontwikkeld zijn) kun je contact opnemen met .

In de CLARIAH-PLUS aanvraag (p. 8) wordt gesteld:  “The CLARIAH infrastructure will increase our empirical base, options for analysing […] data, and the efficiency of research by orders of magnitude (data-intensive science).” Maar is dat ook echt zo?

wildersDe reden voor de oorspronkelijke blog door Marc van Oostendorp: het gebruik van het weinig gebruikte woord 'difficulteren' door PVV-leider Geert Wilders.  Een treffende illustratie van de correctheid van deze claims wordt geleverd door Marten van der Meulen in een recente bijdrage aan Neerlandistiek.nl. Binnen een dag testte hij  een vermoeden van Marc van Oostendorp over het onlangs door Geert Wilders gebruikte woord `difficulteren’, door het op te zoeken in meerdere corpora die de CLARIAH onderzoeksinfrastructuur de afgelopen jaren beschikbaar heeft gesteld.

'Increase our empirical base'

Marten zocht in 6 corpora (Staten Generaal Digitaal, Corpus Gesproken Nederlands, Corpus Hedendaags Nederlands, Brieven als Buit Corpus, Sonar en in de corpora van Nederlab (waar het vooral voorkomt in Early Dutch Books Online).

Het mooie is dat CLARIAH het zoeken in deze bronnen mogelijk maakt voor iedere geesteswetenschapper: je hoeft geen corpuslinguïst te zijn, je hoeft niet te kunnen programmeren, je hoeft geen corpora of software te downloaden. CLARIAH biedt webapplicaties met gebruikersvriendelijke interfaces die het zoeken in die corpora eenvoudig maken.
Zie beneden voor links.

'Increase options for analysing … data'

Deze bronnen maken het mogelijk te zoeken op lemma in plaats van op woordvormen, wat het zoeken en de analyse van de zoekresultaten een stuk makkelijker maakt en een groter aantal relevante data oplevert. Bovendien bevatten veel van de bronnen metadata zoals genre, tijd en plaats zodat ook snel bepaald kan worden waar, wanneer en in welke genres dit woord vaak of minder vaak voorkomt.difficulterenDifficulteren: Oprechte Haerlemsche courant (08-11-1687). Gevonden in de archieven van de Koninklijke Bibliotheek via het zoeken naar ‘difficulteren’ in de zoek-app van het NederLab-project.

'Increase the efficiency of research'

Marten deed dit onderzoek binnen 1 dag, iets wat vóór CLARIAH niet mogelijk was of hoogstens voor een selecte groep van ervaren corpuslinguïsten.

Natuurlijk kan je ook zoeken op het internet, via Google of op Twitter. Dat complementeert het zoeken in specifieke corpora, met name omdat de empirische basis dan nog veel groter is. Maar dan moet je alle woordvormen van dit werkwoord apart opzoeken en de analyse van de resultaten vergt meer (handmatig) werk, vooral omdat er nauwelijks relevante metadata zijn. Marten heeft ook met Google gezocht, maar hij heeft de analyse van de resultaten nog niet in die ene dag kunnen doen. Hij heeft ook gezocht in het Corpus of the Web (COW) voor het Nederlands, kleiner dan het hele internet maar nog steeds behoorlijk groot (7 miljard woorden), en er waren minder hits daar zodat ze nog verder geanalyseerd konden worden.

De zoekopdracht waar het hier om ging betreft een lemma van 1 woord, en dat is een vrij eenvoudige opdracht. Maar de CLARIAH-infrastructuur maakt het ook mogelijk om veel ingewikkelder zoekopdrachten te geven, met combinaties van woorden, woordparen met een grammaticale afhankelijkheidsrelatie, en volledige grammaticale constructies.

Mijn conclusie is dan ook dat CLARIAH faciliteert en de bovengenoemde claim nu al waarmaakt..

Wil je meer weten, of een cursus volgen om deze tools optimaal te gebruiken? Contacteer .

Jan Odijk

 

Links

Corpus Hedendaags Nederlands http://corpushedendaagsnederlands.inl.nl/
OpenSoNaR http://opensonar.inl.nl/
Nederlab http://www.nederlab.nl/
PaQu http://www.let.rug.nl/alfa/paqu/info.html
(zoeken naar woordparen met een grammaticale afhankelijkheidsrelatie)

GrETEL

http://gretel.ccl.kuleuven.be/gretel3/
(zoeken naar grammaticale constructies)

Algemeen

https://portal.clarin.nl/clariah-tools-fs
(overzicht van tools en service, nog in ontwikkeling


Bram van den Hout (IISG)

Deze blog is eerder verschenen op de website van Historici

‘Dit is expliciet géén workshop of hackathon,’ benadrukte Richard Zijdeman (IISG) op 29 maart tijdens het welkomstwoord van de eerste CLARIAH Tech Day van 2018, ‘maar een mogelijkheid om samen te werken en kennis te delen.’ Zijn woorden beschreven perfect hoe de dag verder zou verlopen, want de aanwezige wetenschappers, ontwikkelaars, en geïnteresseerden vormden direct na de opening op informele wijze werkgroepen. In de zalen van het IISG werd overlegd, samen gewerkt, en gepresenteerd. Het enthousiasme onder de meer dan 65 aanwezigen was groot, en het eerste blok met de zogenaamde Tech Sessies begon.

Door het open karakter van de Tech Day was het eenvoudig om tussen de ene sessie en de andere te wisselen omdat deze bijna allemaal plaatsvonden in een grote zaal van het IISG. De sprekers verzamelden hun publiek dat direct verrijdbare tafels, een televisie, en stoelen pakten om in een hoek van de zaal een eigen plek te creëren. Hierdoor was het zelfs mogelijk om meerdere presentaties per blok te volgen. Deze sessies waren het hart van de dag dat CLARIAH, de onderzoeksinfrastructuur die wetenschappers van geestes- en sociale wetenschappen toegang geeft tot applicaties en digitale data, organiseerde. Deze Tech Days  worden gehouden om de ontwikkelaars van de verschillende ‘werkpakketen’ binnen CLARIAH in de gelegenheid te brengen om samen te werken en ideeën uit te wisselen. Een veel gehoorde term was ‘kruisbestuiving’.

De eerste vier sessies maakten gelijk duidelijk dat de Tech Day niet bedoeld was voor historici en wetenschappers zonder bovengemiddelde kennis van computers, programmeren, en/of Linked Data. Hoewel de uitleg en mate van hands-on verschilde van sessie tot sessie, werd er van uitgegaan dat de aanwezigen wisten wat er werd bedoeld met de verschillende termen zoals API, Linked Open Data, en RDF. Hier was CLARIAH echter duidelijk in bij de aankondiging van de Tech Day, en zowel CLARIAH als de individuele werkpakketten organiseren regelmatig evenementen en onderhouden websites gericht op wetenschappers waardoor deze ietwat hoge instapdrempel geen probleem is. Dit betekent echter niet dat er geen vragen waren: de sprekers kregen veel kritische en geïnteresseerde vragen tijdens, na, en zelfs vóór de presentaties. En vice versa! Omdat de aanwezigen elk met soortgelijke, maar tegelijkertijd hele andere, onderwerpen en gereedschappen bezig zijn werden antwoorden samen gevonden en nieuwe vragen bedacht. Hier en daar, aan tafeltjes en in de kantine van het instituut, zaten groepjes onafhankelijk van het programma te overleggen en te werken. De kruisbestuiving aan het werk.

Het programma van de dag bevat korte samenvattingen van de sessies met links naar projectpagina’s en websites waar geïnteresseerden meer kunnen lezen. Vragen die telkens terugkeerden tekenen de algehele insteek van de gepresenteerde projecten en tools: hoe kunnen wetenschappers hier gebruik van maken, wie kan hieraan bijdragen, wat is het nut voor het publiek? Deze  instelling ligt aan de grondslag van CLARIAH, maar het was motiverend om te zien dat de werkpakketten dit zelf ook zeer belangrijk vinden. De demonstratie van Adamnet, een project dat cultureel erfgoed in Amsterdam aan elkaar wilt verbinden en presenteren aan het publiek, liet zien hoe verschillende kleine initiatieven gecombineerd kunnen worden om een uitgebreide interactieve kaart van Amsterdams erfgoed te maken. Een sessie over OpenSKOS richtte zich juist op wetenschappers die met Linked Data werken door te laten zien hoe data kan worden verbonden met hun platform. Nieuwe tools, zoals ANANSI (waarmee grafieken kunnen worden gemaakt op basis van datasets) en de Media Suite video annotation tool, werden gepresenteerd zodat aanwezigen konden meedenken en hopelijk bijdragen. Speciale melding moet worden gemaakt van de discussiesessies Standardization of Person Vocabularies door Richard Zijdeman (IISG) en Sebastiaan Derks (Huygens ING) die meer dan 40 deelnemers wist te trekken, en CLARIAH-VL door Sally Chambers (Universiteit Ghent, DARIAH-EU) en Gertjan Filarski (CLARIAH), waarmee een aanzet werd gegeven tot nauwere samenwerking tussen Nederlandse en Belgische onderzoekers en infrastructuren. Chambers uitte de wens dat sociale wetenschappers en ontwikkelaars van beide landen (en uiteindelijk heel Europa) meer en gemakkelijker met elkaar samen konden gaan werken.

techdag 2018Liliana Melgar (WP5) geeft uitleg over
de CLARIAH Media Suite
Want samenwerking was niet alleen het thema van deze productieve en interessante dag, maar ook het thema van de toekomst: door samenwerking en uitwisseling van kennis tussen de ontwikkelaars en geestes- en sociale wetenschappers van Europa kunnen grotere projecten worden ontwikkeld De huidige ontwikkelde tools van CLARIAH zijn al een enorme vooruitgang op vroeger, omdat datasets van individuele wetenschappers nu gemakkelijk aan elkaar online verbonden kunnen worden. Hierdoor kunnen nieuwe conclusies worden getrokken en verborgen verbanden worden gevonden. Als voorbeeld: bezoekersaantallen van bibliotheken in de jaren ‘60 uit dataset A worden gekoppeld aan de uitgekomen boeken per maand uit dataset B, terwijl dataset C dit kan verbinden aan perioden van politieke onrust. Overal ter wereld zijn wetenschappers bezig met het maken van datasets die met elkaar verbonden kunnen worden, en overal ter wereld zijn ontwikkelaars bezig om soortgelijke problemen op te lossen. Uiteindelijk zou het mogelijk moeten zijn om alle datasets eenvoudig aan elkaar te koppelen met uniforme tools. Het bundelen van kennis, tijd, en financiën van meerdere onderzoeksinstellingen, wetenschappers, en landen zal dit proces alleen maar versnellen en verbeteren. Op een dag zal de Tech Day op internationale schaal worden gehouden, waar de gehele wetenschap baat bij zal hebben. 29 maart was hier in ieder geval een hele goede aanzet toe.