In aanloop naar de Tweede Kamerverkiezingen van 2021, waar een historisch aantal vrouwelijke lijsttrekkers op het stembiljet staan, deed de Utrecht Data School (Universiteit Utrecht) samen met De Groene Amsterdammer onderzoek naar de rol van seksisme in het politieke debat op sociale media en in de pers. Hoe worden vrouwelijke politici aangesproken op sociale media in vergelijking met hun mannelijke collega’s? Hoeveel haat ontvangen vrouwelijke (kandidaat-)Kamerleden dagelijks, en waar is die haat op gericht? Wat gebeurt er op het moment dat je als vrouw de politieke arena wil betreden? En welke onderwerpen komen aan bod in interviews met vrouwelijke en mannelijke volksvertegenwoordigers?

Vanuit een dataperspectief vormt het onderzoeken van seksistische uitingen een behoorlijke uitdaging. Van subtiel, alledaags seksisme tot hardnekkige misogynie, van algemene uitingen tot doelgerichte haat – hoe vang je een fenomeen dat zich in zoveel verschillende gedaantes voordoet in bredere patronen, in feiten en cijfers?

Hoewel we geenszins in de veronderstelling verkeren dat we hiermee seksisme volledig kunnen vatten (alleen al de keuze om ons enkel te richten op Twitter en traditionele media heeft onze onderzoeksblik beperkt) bewandelen we in dit onderzoek twee methodologische sporen. Het eerste leunt op een vergelijkende analyse van woordfrequenties, vergelijkbaar met de manier waarop wij antisemitisme en coronacomplotten tekstueel onderzochten. Hier analyseren we welke woorden er vaker in de context van vrouwelijke politici opduiken in vergelijking met hun mannelijke collega’s. De kracht van zo’n analyse is dat ze heel goed subtieler, alledaags seksisme blootlegt. Als het bijvoorbeeld klopt dat het bij vrouwelijke politici vaker over hun gezin gaat, dan zou je ook verwachten dat woorden gerelateerd aan het gezin (‘moeder’, ‘dochter’, ‘vader’) veel vaker bij vrouwen opduiken.

Maar met een woordelijke analyse alleen ondervang je niet de doelgerichte uitingen van vrouwenhaat. Haatdragende termen zoals ‘terrorismeliefje’ of ‘terrorismehoer’ komen uit een vergelijkende frequentieanalyse van tweets naar vrouwelijke en mannelijke politici niet naar boven drijven. Dat zijn immers geen termen die vaker gelinkt worden aan vrouwelijke kandidaten in het algemeen, maar in dit geval specifiek aan D66-leider Sigrid Kaag. Om toch een indruk te krijgen van de omvang van dergelijke haatdragende berichten moeten we het woordelijke niveau ontstijgen en op zoek gaan naar bredere categorieën om dergelijke berichten te beschrijven.

Het tweede spoor dat we in dit onderzoek dan ook bewandelen is het spoor van deels handmatige en deels algoritmische classificatie. Hierbij kennen we aan de berichten algemene labels toe: is deze tweet richting een vrouwelijke politicus haatdragend of zelfs bedreigend? En zo ja, waar is die haat dan op gericht? Waar we met de vergelijkende woordfrequentieanalyses vooral het subtielere, alledaagse seksisme trachten op te sporen, richt deze classificatieanalyse zich hoofdzakelijk op de expliciete uitingen van vrouwenhaat jegens (kandidaat)-Kamerleden.

245 interviews en ruim een miljoen tweets

Voor beide sporen zijn we tijdens het verzamelen van de data uitgegaan van de volledige kandidatenlijsten voor de Tweede Kamerverkiezingen zoals die bekend waren op 11 januari 2021. Waar het verzamelen van de kandidatenlijsten al eerder begon, hebben we eventuele wijzigingen in de kandidatenlijst met terugwerkende kracht doorgevoerd. Concreet houdt dit in dat bijvoorbeeld Eva Vlaardingerbroek en Hugo de Jonge niet in onze dataset voorkomen, hoewel zij op een zeker moment wel publiekelijk bekendstonden als kandidaat-Kamerlid. Andersom geldt dat Lodewijk Asscher, die op 14 januari aftrad als PvdA-lijsttrekker, wel nog in onze dataset is opgenomen.

Omdat we veronderstellen dat de manier waarop er gesproken wordt over kandidaten van partijen die een nihile of vrijwel afwezige kans hebben om een zetel te halen niet representatief is voor het daadwerkelijk betreden van de ‘politieke arena’, hebben we alleen de partijen geselecteerd die in de peiling van 10 januari 2021 van Peil.nl op minstens één zetel geschat werden. In de praktijk hield dit in dat we alle zittende partijen, Bij1 en JA21 hebben meegenomen in ons onderzoek. Deze keuze is uiteraard nooit waterdicht – inmiddels komen Volt en Code Oranje in peilingen ook op één zetel uit.

Van alle (kandidaat-)Kamerleden van de door ons geselecteerde partijen verzamelden we handmatig hun volledige naam, geslacht en Twitter-handle. Van de 670 kandidaat-Kamerleden kon van 570 (85 procent) een Twitter-handle geïdentificeerd worden. 355 van de 570 (62 procent) was man, 215 (38 procent) vrouw.

Vervolgens hebben we alle Nederlandstalige tweets tussen 1 oktober 2020 en 26 februari verzameld waarin ofwel de handle, ofwel de volledige naam van een kandidaat-Kamerlid wordt genoemd. Tweets waarin een kandidaat alleen bij haar voornaam of achternaam wordt genoemd zijn in onze dataset dus niet opgenomen, terwijl de vrouwenhaat daar mogelijk nog weliger tiert (denk aan de hashtag #KutKaag). Zoeken op alleen de achternaam zou echter vanwege de vele generieke namen in onze dataset – er zijn alleen al negen kandidaten met de achternaam ‘Van Dijk’ – dusdanig veel ruis opleveren dat zij een kwantitatieve exercitie vrijwel onmogelijk zou maken.

Daarnaast hebben we alleen tweets geselecteerd waarin een kandidaat direct wordt aangesproken en genoemd. Reacties op reacties, en reacties op een tweet waarin een kandidaat wordt aangehaald zijn dus – omdat deze in de meeste gevallen niet over de desbetreffende kandidaat gaan – niet meegenomen in ons onderzoek. Ook retweets en tweets waarin meer dan vijf kandidaten worden aangehaald, zijn uitgesloten van analyse.

Op basis van onze zoekopdracht en bovenstaand selectiemechanisme hebben we in totaal 1.268.889 tweets verzameld. Ongeveer een vierde daarvan, 339.932 tweets, is verstuurd aan vrouwelijke politici; het overgrote meerendeel (928.957) aan mannelijke politici. Omdat van de kandidaat-Kamerleden met een beschikbare Twitter-handle 38 procent vrouw is, zouden we hier al een behoorlijke overrepresentatie van mannelijke kandidaten in kunnen lezen. Tegelijkertijd zien we, wanneer we kijken naar welke politici de meeste directe vermeldingen krijgen, dat deze scheve verhouding vooral te wijten lijkt aan de particuliere interesses van de Nederlandstalige Twittersfeer. Enerzijds lijkt Nederlandstalig Twitter zich vooral te richten op de zittende macht – Mark Rutte is alleen al goed voor bijna twintigduizend tweets – en anderzijds schrijft ze disproportioneel veel rechts-conservatieve politici aan.

Naast de ruim een miljoen Twitterberichten hebben we ook een dataset samengesteld van 245 interviews met Nederlandse politici. Hiervoor hebben we behalve kandidaat-Kamerleden ook interviews met kabinetsleden en de burgemeesters van de vier grote steden in onze selectie opgenomen. De interviews zijn handmatig verzameld door op LexisNexis én via Google te zoeken naar de naam van de politicus plus interview. We hebben niet alleen gezocht naar interviews in landelijke dagbladen, maar ook in gevestigde online publicaties (NOS.nl, OneWorld) en week- en maandbladen, inclusief zogeheten vrouwenbladen (VIVA, Libelle, Flair). Omdat we veronderstellen dat interviews die in zulke bladen gepubliceerd worden vaak toch wat persoonlijker van aard zijn, hebben we daarbij wel gecontroleerd of de man/vrouw-verhouding in ’vrouwenbladen’ niet disproportioneel uit balans is. Dat bleek niet het geval: het aandeel van mannen en vrouwen is in deze bladen exact gelijk (acht interviews).

Wanneer we kijken naar de titels die in onze interview-dataset vertegenwoordigd zijn, zien we dat het grootste deel ervan gepubliceerd is in de grotere landelijke dagbladen. En hoewel Jesse Klaver met tien interviews de meest geïnterviewde politicus is, zien we vooral dat politici van centrum-rechtse coalitiepartijen ruim vertegenwoordigd zijn in de interviews.

Mannen praten over macht, vrouwen over het gezin

Om te onderzoeken of er anders over mannelijke dan over vrouwelijke politici wordt gesproken, hebben we twee soorten woordfrequentieanalyses uitgevoerd: een analyse van onderscheidende woorden en aanspreekvormen.

Ten eerste hebben we geanalyseerd welke woorden het meest onderscheidend zijn voor interviews met – en tweets naar – vrouwelijke politici in vergelijking met hun mannelijke collega’s, en andersom. Hiervoor hebben we eerst met behulp van het Python-pakket spaCy de woorden in de teksten gelemmatiseerd. Dat betekent dat we bijvoorbeeld alle zelfstandig naamwoorden terugbrengen naar de stam (‘mannen’ wordt ‘man’), en alle werkwoorden naar de onbepaalde wijs (‘is’ wordt ‘zijn’). Ook hebben we de teksten verrijkt met zogeheten POS-tags, die de woordsoorten aanduiden.

Hierna kijken we welke woorden er in teksten met vrouwelijke politici vaker voorkomen dan in teksten met mannelijke politici, en andersom. Dit doen we aan de hand van een zogeheten Wilcoxonrangtekentoets. Voor de interviews vergelijken we de frequenties op het niveau van de interviews; voor de tweets – omdat enkele kandidaten disproportioneel vertegenwoordigd zijn in onze dataset – op het niveau van de kandidaten. In onze visualisaties tonen wij de vijftien zelfstandig naamwoorden met de hoogste Wilcoxonrangtekenwaarde. We kiezen specifiek voor zelfstandig naamwoorden om meer thematische verschillen bloot te leggen.

De vijftien meest onderscheidende woorden in interviews met vrouwelijke (links) en mannelijke (rechts) politici. De getallen onder de woorden geven de relatieve frequenties in beide tekstverzamelingen aan: het getal aan de linkerkant toont de frequentie in interviews met vrouwelijke politici; die aan de rechterkant de frequentie in interviews met mannelijke politici.

Naast de meest onderscheidende woorden hebben we ook onderzocht in hoeverre vrouwelijke politici op een andere manier worden aangesproken dan mannelijke politici. Hiervoor hebben we drie indicatoren opgesteld: de mate waarin een politicus bij zijn/haar voornaam/achternaam wordt aangesproken, de frequentie van gendermarkerende aanspreektitels (mevrouw, meneer, dame, heer) en de mate waarin politici getutoyeerd worden. Omdat we hier nadrukkelijk niet de meervoudsvormen van deze aanspreekvormen willen meenemen, voeren we deze analyses uit op de niet-gelemmatiseerde woorden.

Bij de eerste twee indicatoren zagen we heel duidelijke verschillen: vrouwelijke politici worden vaker bij hun voornaam aangesproken en ook gendermarkerende aanspreekvormen komen vaker voor bij vrouwen. De mate waarin vrouwelijke en mannelijke politici getutoyeerd worden verschilde niet: zowel mannelijke als vrouwelijke politici werden in ongeveer tachtig procent van de gevallen met ‘u’ of ‘uw’ aangesproken.

Wanneer is een tweet haatdragend of agressief?

Voor de analyse van de hoeveelheid berichten die vrouwelijke politici ontvangen, en waar die haat op gericht is, hebben we een schema opgesteld om de tweets richting vrouwelijke politici structureel te categoriseren. Bij het opstellen van dit categoriseringsmodel hebben wij ons laten inspireren door eerdere onderzoeken naar haatdragende teksten op sociale media, zoals de zogeheten Troll Patrol-onderzoeken van Amnesty International, een onderzoek naar cyberpesten onder jongeren op sociale media, en een studie naar het automatisch extraheren van ongewenste vooroordelen in teksten. Omdat deze categoriseringsmodellen zorgvuldig zijn ontwikkeld en gevalideerd, verwachten wij dat deze ook goed toepasbaar zijn voor ons onderzoek.

In ons categoriseringsmodel maken we in de eerste plaats onderscheid tussen haatdragende tweets, agressieve tweets en niet-problematische tweets:

  • Haatdragend: het bevestigen van negatieve stereotypen die betrekking hebben op de identiteit of de persoonlijke levenssfeer van de aangesproken politicus. Ook uitschelden (zonder gebruik van stereotypen) van een politicus valt hieronder.
  • Agressief: een directe bedreiging voor de politicus, haar gezin, haar privacy of haar privéleven.
  • Niets: geen van de twee bovenstaande categorieën

Van de haatdragende en agressieve tweets houden we bij ook waar de haat specifiek op gericht is. Hier onderscheiden we vijf categorieën: gender, etniciteit, religie, leeftijd/lichaam en overig. Haatdragende uitingen die betrekking hadden op meerdere categorieën, zoals ‘moslimhoer’ (gender en religie) kregen ook meerdere labels toegewezen.

Aan de hand van bovenstaand annotatieschema hebben vier codeurs (twee van de universiteit, twee van de Groene-redactie) een willekeurige steekproef van in totaal tienduizend tweets gelabeld. Over het algemeen geldt dat alleen zeer duidelijke voorbeelden als zodanig werden gelabeld om subjectiviteit en interpretatie zoveel mogelijk te beperken. De lijn tussen agressie, haat of ‘niets’ kan immers dun zijn. Iemand die eindeloos schrijft naar een vrouwelijke politicus: ‘Daar moet een piemel in! Daar moet een piemel in!’ Is dat iemand die een seksistische carnavaleske leus gebruikt? Of juist een oproep tot? Dit soort ‘twijfelgevallen’ zijn voor de zekerheid steeds terughoudend gelabeld. In dit geval beschouwen we deze tweet wel als haatdragend, maar niet als agressief. Hetzelfde geldt voor de grens tussen haatdragend en ‘niets’: bij twijfel werd gekozen de tweet eerder als ‘niets’ te labelen. Vanwege deze structurele terughoudendheid stellen wij in het stuk dat het percentage haatdragende berichten in werkelijkheid mogelijk nog hoger ligt.

Van de tweets die wij handmatig hebben gelabeld hebben we – aansluitend op recente debatten rond contentmoderatie op sociale platformen – gecontroleerd hoeveel tweets daarvan op uiterlijk 23 februari verwijderd waren. Wanneer een tweet (tweet-ID) of een gebruikersnaam niet meer via de Twitter API gevonden kan worden, beschouwen we deze als verwijderd. Over het algemeen bleek ongeveer één op de tien tweets in onze dataset verwijderd te zijn; van de tweets die door ons als problematisch gelabeld waren, was één op de vijf verwijderd.

De tienduizend door ons gelabelde tweets hebben we daarnaast gebruikt om een classificatiemodel te trainen dat automatisch herkent of een tweet haatdragend/agressief is, om daarmee de overige tweets in onze dataset van een label te voorzien. Het model dat wij hiervoor – na vergelijking met simpeler alternatieven – hebben ingezet is een Nederlandstalig RoBERTa-taalmodel (robbert-v2-dutch-base). Om te voorkomen dat het model een ongewenste bias richting bepaalde politici ontwikkelt, hebben we de handles van politici geanonimiseerd door deze te vervangen met ‘@politicus’; namen van andere gebruikers zijn vervangen door ‘@gebruiker’.

Hoewel ons classificatiemodel over het algemeen een nauwkeurigheid van 91 procent op een ongeziene testset behaalde, zijn dergelijke cijfers door ons terughoudend geïnterpreteerd. Omdat slechts twaalf procent van de handmatig gecodeerde tweets als haatdragend/agressief gelabeld is, is het behalen van een hoge nauwkeurigheid een vrij triviale prestatie: een model dat alle tweets als niet-problematisch zou aanmerken behaalt ook al een nauwkeurigheid van 88 procent. Belangrijker is om specifiek te kijken naar de prestaties op haatdragende/agressieve tweets. Dan zien we dat 63 procent van alle tweets die het model als haatdragend/agressief heeft herkend (de precision) ook door een van de codeurs als zodanig is gelabeld; van alle tweets die wij als haatdragend/agressief hebben gecodeerd is 54 procent ook door het model herkend (de recall). Dat is, hoewel onze gecodeerde dataset met tienduizend tweets relatief klein is, vrijwel even hoog als eerdere pogingen haatdragend taalgebruik in Nederlandse teksten te classificeren, en aanzienlijk beter dan een willekeurige baseline (dan krijg je een precision van rond de twaalf procent, en een recall van rond de vijftig procent), maar zeker niet foutloos. Tegelijkertijd zijn er – hoezeer je ook interpretatie en subjectiviteit tracht te beperken – ook bij handmatige labeling wel eens onderlinge verschillen.

Desalniettemin hebben we, om te controleren dat de automatische analyse niet radicaal andere resultaten oplevert, als extra validatiestap de resultaten van de automatische categorisering structureel vergeleken met de handmatige categorisatie (zie bovenstaande figuur). Daaruit bleken, wat betreft algehele patronen, geen markante verschillen.

Als het model ergens afwijkt van de handmatige classificatie, is het dat het juist iets voorzichter berichten als haatdragend classificeert. Onze resultaten zijn dus een onderrapportage: het daadwerkelijke aantal haatdragende tweets ligt waarschijnlijk hoger. Niet in de laatste plaats omdat het hier vooral om een conservatieve schatting gaat, maken zowel de handmatige als de algoritmische analyse duidelijk dat haatdragende uitingen richting vrouwen in de politiek geen incident zijn. Samen ontvangen alle vrouwelijke kandidaat-Kamerleden in verkiezingstijd gemiddeld meer dan tweehonderd haatdragende berichten per dag – en dan tellen we de reacties op Instagram, Facebook, TikTok, via e-mail of bij aankomst op het Binnenhof niet mee.