Het debat over racisme en discriminatie inzichtelijk maken, hoe doe je dat? Een vaak impliciet fenomeen als racisme is niet eenvoudig te vangen zonder diepgravende enquêtes of interviews, en zelfs dan blijft het beeld incompleet.
Toch kan het analyseren van publieke teksten veelzeggende inzichten bieden, bijvoorbeeld door aan te tonen of associaties met bepaalde woorden veranderen. Om deze reden verzamelden en analyseerden wij ruim een miljoen spreekbeurten in de Tweede Kamer, tienduizenden krantenartikelen en miljoenen reacties op Facebook en Twitter. We lichten hier kort toe hoe we precies te werk gingen.
1. Datasets
Het ‘publieke debat’ speelt zich af op verscheidene fronten. Daarom verzamelden we datasets uit de politiek (vergaderingen in de Tweede Kamer), de ‘reguliere media’ (krantenartikelen) en sociale media (Facebook-reacties en tweets).
Tweede Kamer dataset
Om data van vergaderingen in de Tweede Kamer te vergaren, schreven we een script (een zogeheten scraper) in de programmeertaal Python dat documenten downloadt van het officiële online kanaal voor overheidsdata: officielebekendmakingen.nl. Op deze website publiceert de rijksoverheid sinds 1995 verschillende documenten, zoals gemeentelijke vergaderingen, edities van de digitale Staatscourant en – relevant voor dit onderzoek – parlementaire ‘handelingen’. Deze handelingen omvatten onder meer transcripties van vergaderingen, inclusief stemmingen, moties, Kamervragen en algemene overleggen. Voor het artikel werden alle handelingen in de Tweede Kamer verzameld vanaf 1995 (het begin van de archivering) tot 2018. Dit resulteerde in een totaal aantal van 1.008.435 spreekbeurten in 15.806 vergaderingen door 941 sprekers (mét de voorzitter meegerekend). Met een ‘spreekbeurt’ bedoelen we één moment waarop een parlementariër iets zegt aan de microfoon. Dat kan gaan van langdurige betogen tot vluchtige antwoorden.
Kranten datasets
Krantenartikelen zijn verzameld via LexisNexis Academic, een dienst die journalistieke artikelen archiveert. Hier is dezelfde tijdsspanne gehanteerd als bij de parlementaire data: van 1995 tot eind 2018. De vier grote kranten (De Telegraaf, AD, NRC en de Volkskrant) vormden de oorspronkelijke selectie, maar aangezien De Telegraaf en het AD pas vanaf respectievelijk 1999 en 2005 zijn gearchiveerd, werden we genoodzaakt alleen NRC en de Volkskrant te behouden, omdat de resultaten anders onevenredig zouden worden. Voor de volledigheid hebben we in deze onderzoeksverantwoording ook nog een grafiek toegevoegd met de data van De Telegraaf (vanaf 1999) en het AD (vanaf 2005), die geen noemenswaardige verschuivingen laat zien. We verzamelden alle artikelen met ten minste één van de volgende woorden: ‘racisme/racist/racistisch’, ‘islam’, ‘moslim’, ‘multicultureel/multiculturele/multiculturalisme’ en ‘allochtoon/allochtoons’. Meervoudsvormen zijn ook meegenomen.
Twitter en Facebook datasets
Het publieke debat speelt zich tegenwoordig steeds meer af op online platformen. Datacollectie voor platformen als Twitter en Facebook is de laatste jaren echter een stuk moeilijker geworden. De toegangspunten tot Facebook-data zijn voor externen geleidelijk afgesloten, met name na het Cambridge Analytica-schandaal. Twitter maakt het wel mogelijk om recente data op te vragen, maar voor oudere tweets moet al gauw de hoofdprijs worden betaald.
Gelukkig konden we gebruik maken van instrumenten van het Digital Methods Initiative, een onderzoeksgroep aan de Universiteit van Amsterdam. We gebruikten de DMI-TCAT-tool om alle Nederlands gelabelde tweets te verzamelen met daarin het woord ‘racisme’. Aangezien de Twitter-data live moeten worden gedownload, begint deze dataset pas eind 2013. Dit resulteerde in ruim een half miljoen tweets van 27 november 2013 tot 20 december 2018. Ook verzamelden we een dataset van meer dan driehonderdduizend tweets over Zwarte Piet in 2018.
Facebook biedt geen mogelijkheid om post te verzamelen met bepaalde kernwoorden, zoals dat wel bij Twitter kan. Daarom maakten we gebruik van reacties op de pagina’s van achttien grote Nederlandse actualiteitenprogramma’s en kranten, zoals NOS Journaal, PowNews, DWDD en De Telegraaf. Deze data zijn verzameld door Bernhard Rieder, hoofddocent aan de Universiteit van Amsterdam, met zijn tool netvizz. Een kanttekening is dat deze dataset strikt gezien niet alle berichten en reacties omvat: Facebooks data-toegangspunt biedt voor sommige pagina’s slechts zeshonderd ‘top’ post per jaar aan, en bij de grote pagina’s worden alleen de reacties met de meeste likes aangeboden. Desalniettemin omvatten deze data ruim 2,8 miljoen reacties. Deze dataset konden we vervolgens rangschikken op de meeste likes onder berichten met de woorden ‘racisme’, ‘sylvana’ en ‘zwarte piet’.
2. Analyse
Nadat we de data hadden verzameld konden we beginnen met de analyse. Dit ging wederom gepaard met het schrijven van honderden regels computercode, allemaal in de programmeertaal Python.
Woordgebruik door partijen in de Tweede Kamer
Hoe vaak wordt een bepaald thema besproken in de Tweede Kamer? En door welke partijen? Verandert dit door de jaren heen? Met de Tweede-Kamerdata konden we deze vragen al snel beantwoorden. We filterden onze centrale dataset op spreekbeurten waarin een bepaald kernwoord voorkomt. Letters vóór en ná de kernwoorden werden toegestaan: ‘islam’ ving dus ook ‘islamisering’. Voor de grafiek met multiculturalisme hebben we spreekbeurten met de letters ‘multicultu-’ opgevraagd, zodat zowel ‘multicultuur’ als ‘multiculturele’ zou matchen. Hetzelfde geldt voor ‘allochto-’. De resulterende spreekbeurten konden we vervolgens opdelen per partij. Een kanttekening: spreekbeurten door de kabinetsleden werden niet aangeduid per partij in de verzamelde data – ze vertegenwoordigen immers het volksbelang – en hebben we daarom onder ‘kabinet’ geschaard. Vervolgens visualiseerden we met zogeheten streamgraphs zowel de frequentie van het gebruik van bepaalde woorden als de compositie per partij. Om de leesbaarheid van de grafieken te verbeteren kozen we voor het uiteindelijke artikel een visualisatie-algoritme waarbij de flow duidelijk werd gerepresenteerd, wat voor een verwaarloosbaar gedeelte ten koste ging van een absoluut precieze weergave van de aantallen. Wat al snel opviel: de PVV werd in een mum van tijd de dominante stem in de Tweede Kamer omtrent thema’s als de islam, multiculturalisme en ‘allochtonen’, en verving vaak de stem van linkse partijen.



Woordcollocaties
De streamgraphs gaven redelijk inzicht in wanneer en hoeveel relevante thema’s werden besproken, maar nog niet in hoe. Om dat inzichtelijk te maken gebruikten we een methode van tekstanalyse die berekent welke woorden vaak samen worden gebruikt. Door deze ‘woordburen’ – of collocaties – te meten, kunnen bepaalde associaties inzichtelijk worden gemaakt. Zo bleek in ons onderzoek bijvoorbeeld dat ‘islam’ steeds vaker met ‘radicaal’ werd gebruikt.
Omdat we de verschuiving in het publieke debat wilden onderzoeken, ging onze interesse vooral uit naar de vraag of deze associaties de laatste decennia zijn veranderd. We pasten deze methode daarom toe op de datasets uit kranten en de Tweede Kamer; data van Twitter en Facebook waren helaas niet ‘oud’ genoeg om dezelfde historische inkijk te bieden. Daarvoor moest de betreffende tekst eerst wat worden opgeschoond. Lidwoorden en stopwoorden zijn in dit geval niet relevant en hebben we dus verwijderd. Ook zijn woorden teruggebracht tot hun stam: ‘allochtoon’ en ‘allochtone’ worden bijvoorbeeld herleid naar ‘allochton’. Hiervoor gebruikten we de NLTK SnowballStemmer library, een verzameling computercode, in dit geval een woordenboek met stamwoorden. In de uiteindelijke visualisaties zijn deze stammen uitgeschreven tot de meest gangbare vormen.
Uiteindelijk werden collocaties van twee woorden berekend uit de drie woorden voor en na de onderzochte sleutelwoorden. Om representatieve en leesbare resultaten te krijgen hebben we de collocaties per drie jaar berekend, zowel in de politieke als krantendatasets. Dus: acht groepen van drie, vanaf 1995-1997 tot 2016-2018. Vervolgens vroegen we, met behulp van de NLTK Collocations library, de meest gebruikte collocaties op. Voor het artikel visualiseerden we de vijf woorden die het meest rondom onze sleutelwoorden werden gebruikt.
Na het visualiseren van deze collocaties kwamen enkele interessante verschuivingen in associaties bovendrijven. ‘Islam’ werd bijvoorbeeld in zowel de kranten als de Tweede Kamer steeds vaker gebruikt met het woord ‘radicaal’ en ‘radicale’, terwijl ‘religie’ afnam. Ook zien we bij ‘islam’ in de Kamer een groei van associaties met de woorden ‘probleem’ en ‘ideologie’. Nu de PVV een van de weinige partijen is die het woord ‘allochtoon’ nog gebruikt, gaat het hierbij de laatste jaren voornamelijk over (niet-)westerse allochtonen, in plaats van het meer emancipatoire discours in de jaren ervoor (‘jongeren’, ‘vrouwen’ en ‘ouderen’).




Woordbomen
Tot slot maakten we enkele ‘woordbomen’ met onze datasets. Dit is een methode die simpelweg veel gebruikte woorden na een bepaalde zinsconstructie visualiseert, waardoor dominante patronen in miljoenen zinnen boven komen drijven. We gebruikten hiervoor onze datasets en de Word Tree-applicatie van Jason Davies. Dit was vooral interessant met sociale-mediadata. Bij de woorden die volgen op ‘Zwarte Piet is…’ op Facebook is bijvoorbeeld een duidelijk pro-Zwarte-Piet-sentiment aanwezig.
