‘Wil je onderzoeken welke patronen er aan taalveranderingen ten grondslag liggen, dan heb je veel data nodig. Met de digitalisering van teksten is het veel gemakkelijker geworden om dat onderzoek te doen. Vroeger kostte het jaren om teksten te verzamelen, in te zien en handmatig te analyseren. Nu kan het vanuit de studeerkamer op de computer. Het opent een heel nieuwe wereld aan teksten die je kunt onderzoeken.

Maar die teksten staan op verschillende websites en kunnen niet zonder meer met elkaar worden vergeleken. Daarom werk ik bij het Meertens Instituut als projectleider aan het opzetten van Nederlab, een grote databank om vanuit één plek alle beschikbare digitale Nederlandse teksten, van de achtste eeuw tot nu, te kunnen doorzoeken. We zijn druk bezig om hiervoor een goede infrastructuur te ontwikkelen, met een hoop technici en een redactie voor de metadata van de teksten. Die metadata zijn echt nodig voor goed onderzoek. We willen dat je teksten niet alleen kunt doorzoeken, maar ook kunt analyseren.

Met Nederlab moet het mogelijk worden om een vraag te onderzoeken als hoe de slavernij in Nederland voor het eerst ter discussie werd gesteld. Je hebt daar chronologische informatie voor nodig: wanneer werd er voor het eerst over geschreven? En wanneer werd de discussie intensiever? Maar je moet ook kunnen analyseren waar en door wie deze discussie werd gevoerd: in welke kranten, tijdschriften of boeken werd hierover geschreven? Je hebt dus allerlei indicaties nodig: een tekst moet gekoppeld worden aan tijd, aan het soort literatuur, aan een auteur, en aan een plaats van verschijnen. Ook willen we dat de onderzoeksresultaten mooi gevisualiseerd kunnen worden in grafieken, tijdslijnen of in een geografische kaart. Dat laatste is heel belangrijk wanneer je onderzoek doet naar de opkomst van dialecten in Nederland. Om zulk onderzoek te ondersteunen willen we Nederlab ook koppelen aan data over immigratie en migratie.

De digitalisering en opkomst van de e-humanities is wat mij betreft een heel spannende ontwikkeling. Het wordt plotseling mogelijk om grote hoeveelheden data te analyseren en we kunnen allemaal nieuwe vragen gaan stellen. Zelf ben ik als historisch taalkundige al langer met dit soort onderzoek bezig. Ik heb bijvoorbeeld een chronologisch woordenboek gemaakt, waarvoor ik de ouderdom van woorden en waar ze precies vandaan komen heb onderzocht. Je kunt daar heel interessante dingen mee ontdekken. Zo zie je dat er tijdens de Franse overheersing, toen iedereen een pesthekel had aan de Franse taal, er onbewust toch heel veel leenwoorden zijn overgenomen.

Zo zijn er meer voorbeelden van hoe talen veranderen als ze met elkaar in contact komen. Zelf onderzoek ik nu hoe de Nederlandse taal aan het begin van de twintigste eeuw veranderd is door onze aanwezigheid in Indonesië. In Nederland was men in die tijd heel strak in het Nederlands, maar in Indonesië was men een stuk vrijer. Daar zie je hoe taalveranderingen er veel gemakkelijker in sluipen. Ik probeer de verschillende neologismen, leenwoorden en grammaticale veranderingen die in het Nederlands van Indonesië plaatsvonden in kaart te brengen en te verklaren.

Met de e-humanities staan we helemaal aan het begin van een nieuwe manier van onderzoek doen. We moeten nog veel leren om de juiste vragen te kunnen stellen en om onderzoeksresultaten op waarde te schatten. Stel dat je een correlatie vindt tussen de manier waarop in een taal de toekomende tijd wordt uitgedrukt en de spaarzaamheid van de sprekers ervan. Dat klinkt interessant, maar er kan makkelijk sprake zijn van toeval of van een verkeerd gekozen dataset. Je kunt onderzoek beter starten vanuit een duidelijke hypothese dan conclusies trekken uit meer of minder toevallige correlaties. Het beheersen van statistiek zal daarom een steeds belangrijker vaardigheid worden voor taalkundigen en historici. En dat is helaas voor mij en veel van mijn collega’s nog niet zo gemakkelijk.

Toch heb ik er alle vertrouwen in dat de e-humanities veel nieuwe inzichten zullen opleveren. Het leidt ook tot nieuwe vormen van dataverzamelen. Door online crowdsourcing kun je nu heel gemakkelijk mensen over de hele wereld bereiken om je te helpen met het verzamelen van nieuwe teksten voor je onderzoek. Ik ben nu bijvoorbeeld bezig met een digitaliseringsproject van oude brieven en ik heb nog nooit met zo veel enthousiaste mensen gewerkt.’