De online promotie van eetstoornissen gaat terug tot de begindagen van het internet – tot pro-anorexia-fora en websites, tot de uithoeken van MySpace en Tumblr. Via hashtags, hyperlinks en zoekopdrachten kwamen kwetsbare tieners terecht in groepen waarin eetstoornissen werden aangemoedigd en geïdealiseerd. Maar wat gebeurt er op het moment dat wat je ziet online niet meer wordt bepaald door wie je volgt of wat je zoekt, maar door krachtige aanbevelingsalgoritmes die proberen zo lang mogelijk je aandacht vast te houden? Samen met De Groene Amsterdammer en RTL Nieuws deed Utrecht Data School onderzoek naar TikToks aanbevelingsalgoritme en video’s over eetstoornissen.

Om dat te onderzoeken, gebruikten we – vergelijkbaar met eerder onderzoek van The Wall Street Journal naar de kracht van TikToks algoritme – geautomatiseerde accounts om ons door TikTok te navigeren. Die accounts beginnen helemaal vanaf nul; TikTok weet in principe nog niets van ze, behalve dat ze vanuit Nederland de app openen. Ze scrollen door de app en blijven langer hangen bij relevante video’s.

We lieten accounts vanuit drie interesses door de app scrollen. Die interesses bevonden zich in de buurt van eetstoornissen: diëten, fitness (met nadruk op het voedingsaspect van fitnesscultuur), en slanke vrouwen. Daarnaast gaven we de accounts een gevoeligheid voor eetstoornisvideo’s mee, die even zwaar weegt als de andere interesse.

Maar hoe bepaal je automatisch in hoeverre een video gerelateerd aan diëten of eetstoornissen is? Hashtags geven een ruwe indicatie, maar vertellen in onze context niet het hele verhaal. Veel relevante filmpjes, zo bleek uit ons vooronderzoek, lijken bijvoorbeeld helemaal geen eetstoornisgerelateerde hashtags te bevatten. Dat is ook niet nodig: ook zonder hashtags weet TikTok uitstekend welke video’s aan elkaar gerelateerd zijn.

Daarom nemen we naast de hashtags ook het beeld mee. We doen dat met afbeelding- en tekstmodel CLIP (specifiek: ViT-B/32, een wat compactere variant), ontwikkeld door OpenAI – het kunstmatige-intelligentie-bedrijf achter ChatGPT en plaatjesgenerator DALL-E. CLIP is een soort zoekmachine voor afbeeldingen. Het is getraind op vierhonderd miljoen afbeelding-tekst-paren op het internet (bijvoorbeeld afbeeldingen met een bijschrift) en weet daardoor hoe afbeeldingen en teksten zich tot elkaar verhouden. Zowel afbeeldingen als teksten worden in CLIP gepresenteerd als een lijst van 512 cijfers; als een 512-dimensionale vector. En hoe meer die cijfers op elkaar lijken, hoe meer de afbeeldingen en teksten op elkaar lijken. Voer je het woord ‘peer’ in, dan krijg je eerder een plaatje van een peer dan een plaatje van een koe.

Precies dit principe kunnen we gebruiken om onze geautomatiseerde accounts door TikTok te navigeren: staat een screenshot van een video immers heel dichtbij het woord ‘eetstoornis’, dan kunnen we veronderstellen dat deze afbeelding relevanter is dan een screenshot dat er juist heel ver weg van staat. In de praktijk werkt CLIP het best wanneer de beschrijvingen zo precies en compleet mogelijk zijn. De precieze zogenaamde ‘prompts’ die wij hebben gebruikt delen wij uit ethische overwegingen niet. De prompts zijn op basis van een kleine handmatig geselecteerde steekproef geoptimaliseerd en gecontroleerd.

Voor elke video die ons door TikTok wordt voorgeschoteld nemen we een screenshot en gebruiken we CLIP om te bepalen hoe relevant de video voor onze accounts is, uitgedrukt in een waarde van 0 tot 1. Hoe relevanter de video, hoe langer we blijven hangen. Ook gaven we de accounts hierin een geleidelijke ontwikkeling mee: eerst zijn ze bijvoorbeeld geïnteresseerd in vrijwel alles rondom eten, later specificeert dat zich meer tot diëten. Als er hashtags expliciet gerelateerd aan eetstoornissen in de video te vinden zijn (#ed, #ana, #anorexia), dan is de waarde altijd 1.

Ondanks dat CLIP heel krachtig kan zijn, blijft het moeilijk te voorspellen hoe zo’n model – en de prompts die wij gebruiken – precies in de praktijk uitpakt. Toch kiezen we voor de inzet van CLIP, en niet voor alternatieven zoals afbeeldings- of videoclassificatie, om twee redenen. Ten eerste is het moeilijk om zelf een dataset samen te stellen van TikTok-video’s gerelateerd aan eetstoornissen zonder daarvoor te moeten leunen op het gebruik van hashtags – we weten bij voorbaat nog niet wat we voorgeschoteld krijgen, en kunnen er daarom ook geen willekeurige steekproef van nemen. Ten tweede veronderstelt afbeeldingsclassificatie doorgaans een binaire indeling – wel of niet gerelateerd aan eetstoornissen, aan diëten – terwijl wij in onze aanpak juist uit willen gaan van graduele relevantie. Een video waarin een hamburger wordt gebakken is geen video over eetstoornissen, maar is er wel meer gerelateerd aan dan een video over boerenprotesten. De inzet van CLIP is dan ook alleen bedoeld om ons door TikTok te navigeren; niet om de video’s te classificeren of te categoriseren.

Het aanbevelingsalgoritme van TikTok kun je op verschillende manieren sturen. Van heel expliciet – een video liken, commenten, favorieten, bepaalde hashtags opzoeken – tot subtieler, zoals een video pauzeren en terugscrollen. Maar de meest passieve manier waarop TikTok je voorkeuren registreert is het langer blijven hangen bij een video – het (tijdelijke) gebrek aan interactie. En aan alleen díe basale vorm van interactie heeft TikTok genoeg, zo bleek ook al uit ons eerdere onderzoek naar de boerenprotesten op TikTok.

Maar aan hoeveel seconden heeft TikTok genoeg? Hoe duidelijk moet je aan TikTok aangeven dat je een video leuk vindt? Zelfs als je weet dat TikTok voorkeuren registreert op basis van kijkgedrag, kan het moeilijk zijn om daar bewust aan te ontsnappen, om actief andere video’s te gaan kijken. ‘Ik wil niet kijken, maar doe het toch’, schrijft Lena Bril in haar essay over eetstoornisvideo’s op het platform.

We wilden weten: hoeveel seconden extra blijven hangen is genoeg om onze interesses op te pikken, en vanaf wanneer beland je in een ‘fuik’ van eetstoornisvideo’s, extreme diëten en dunne lichamen? En dus maakten we verschillende lege accounts aan die afwisselend maximaal twee, vijf, tien óf vijftien seconden naar relevante video’s keken. Voor elk maximum aantal seconden lieten we vier accounts door TikTok scrollen.

Hoewel er geen eenduidige definitie van een online ‘fuik’ bestaat, beschouwen wij het als het in korte tijd, herhaaldelijk en persistent voorschotelen van dezelfde soort video’s. Dat kan op TikTok in theorie alles zijn – voetbalvideo’s, make-up, enzovoorts. Maar anders dan een voetbalfuik bestaat wat wij in het artikel bestempelen als een eetstoornisfuik niet uitsluitend uit video’s direct gerelateerd aan eetstoornissen: ook extreme diëten of beelden van heel magere vrouwen maken er onderdeel van uit.

Om toch tot een eenduidig beginpunt te komen, definiëren wij het begin van een fuik als ‘het punt waarna minstens drie van de laatste tien video’s met hashtags gerelateerd aan eetstoornissen is’. Die definitie is allerminst alomvattend – niet alle video’s gerelateerd aan eetstoornissen hebben zulke hashtags, ook niet-eetstoornisvideo’s zijn relevant, en als je maar lang genoeg kijkt zou je op een platform met een volledig willekeurig algoritme ook in een ‘fuik’ terecht kunnen komen. We gebruiken dit dan ook vooral als een ruwe indicatie, en hebben voor elk account handmatig gecontroleerd of eetstoornisvideo’s na dit punt ook herhaaldelijk en persistent worden aanbevolen.

Met dit als uitgangspunt bleek: aan maximaal twee seconden heeft TikTok genoeg om wezenlijke signalen op te pikken. De video’s worden steeds relevanter, maar het is niet genoeg om daadwerkelijk in een eetstoornisfuik terecht te komen. Met maximaal vijf seconden langer blijven hangen komen twee van onze vier accounts binnen drieduizend video’s in een eetstoornisfuik, en krijgt één account in toenemende mate eetstoornisvideo’s te zien. Vijf seconden langer bij relevante video’s blijven hangen kan dus genoeg zijn om in een eetstoornisfuik terecht te komen. Met maximaal tien en vijftien seconden langer blijven hangen komen alle vier accounts in een eetstoornisfuik.

Om die reden namen we tien seconden – het minimale aantal seconden om relatief consequent in een eetstoornisfuik terecht te komen – als uitgangspunt voor verdere experimenten, waarin we onderzochten 1) hoe snel en 2) op welke manier je in een eetstoornisfuik terecht kunt komen. Per route hebben we hiervoor vier lege accounts ingezet, in totaal dus twaalf accounts.

Daaruit bleek: het snelste account kwam binnen 25 minuten in een eetstoornisfuik terecht (via de route ‘diëten’). Vergelijken we de verschillende routes, dan was de route ‘dunne vrouwen’ het snelst (over vier accounts gemiddeld binnen 37 minuten); iets langzamer is ‘diëten’ (41 minuten) en ten slotte ‘fitness’ (47 minuten). Over de gehele linie zijn die verschillen relatief verwaarloosbaar.

Hoewel het CLIP-model goed werkt om ons door TikTok te navigeren, werkt het minder goed om video’s in eenduidige categorieën onder te verdelen: hoeveel van de video’s gaan daadwerkelijk over eetstoornissen? Hoeveel over diëten? Welke video’s zijn extreem en welke video’s zijn daadwerkelijk bedoeld om mensen die worstelen met eetstoornissen een hart onder de riem te steken? Om dergelijke vragen precies te kunnen beantwoorden, is een wat meer genuanceerd begrip van de video’s nodig, wat verder gaat dan alleen een snelle visuele inschatting op basis van een screenshot of de hashtags.

Daarom hebben we voor elk van de drie routes een van de vier accounts geselecteerd voor verdere handmatige analyse. We selecteren daarvoor (zo veel als mogelijk) het meest gemiddelde account: het account dat niet het snelst, maar ook niet het langzaamst in een eetstoornisfuik terecht is gekomen. Vervolgens hebben we de eerste tweeduizend video’s handmatig gecategoriseerd op de volgende drie elementen:

  1. Waar gaat de video over?
    a) Eetstoornis
    b) Extreem dun
    c) Mentale gezondheid
    d) Diëten
    e) Sporten
    f) Eten
    g) Overig

  2. Spoort de video aan tot (al dan niet excessief) gewichtsverlies?
    a) Ja
    b) Nee

  3. Bevat de video extreme of schadelijke content?
    a) Ja
    b) Nee

Waar bij het eerste element soms meerdere labels toegepast zouden kunnen worden (eetstoornissen en diëten gaan bijvoorbeeld vaak samen), hanteren we een hiërarchische volgorde, waarbij de meest “extreme” categorie prevaleert. Gaat de video dus over eetstoornissen en diëten, dan krijgt de video het label ‘eetstoornis’. Tegelijkertijd labelen we in de regel voorzichtig: de categorie ‘eetstoornis’ wordt alleen aan de video toegewezen als in tekst, muziek, geluid of beschrijving een expliciete verwijzing naar het hebben van een eetstoornis is te vinden. Zo niet, dan geldt het eerstvolgende meest relevante label. De categorie ‘Extreem dun’ reserveren we voor video’s waarin geen directe koppeling met eetstoornissen wordt gemaakt, maar wel heel magere vrouwen (of mannen, hoewel we dergelijke video’s niet in onze steekproef zijn tegengekomen) in zijn te zien.

Om het onderscheid te kunnen maken tussen video’s waarin wordt gesproken over eetstoornissen en video’s waarin deze worden aangemoedigd, of tussen video’s met gebalanceerde diëten en diëten waarin eten tot een gevaarlijk minimum wordt beperkt, labelen we elke video ook als ‘Extreem’ en ‘Niet extreem’. Omdat in zo’n label een gevaar van subjectiviteit schuilt – wat de één extreem vindt, vindt een ander wellicht niet –– hebben we voor deze categorie een lijst met duidelijke regels opgesteld. Onder extreem valt bijvoorbeeld: filmen in eetstoornisklinieken (het maken en delen van sociale-media-content is verboden in de kliniek, geeft Eric van Furth in het hoofdartikel aan), het afkraken van behandelingen voor eetstoornissen, diëten met extreem weinig calorieën, video’s met zichtbare snijwonden. Dat een video als ‘Extreem’ gelabeld is, betekent niet noodzakelijk dat deze niet voldoet aan de TikTok-moderatierichtlijnen. Met deze categorie proberen we juist de ambiguïteit van die richtlijnen bloot te leggen, en te zien hoe vaak onze accounts worden blootgesteld aan zulke extreme video’s.

De zesduizend video’s – waarvan ongeveer vierduizend uniek – zijn door vier codeurs gelabeld (een van de Universiteit Utrecht, twee van De Groene en één van RTL Nieuws). Om de onderlinge overeenstemming tussen codeurs te toetsen (labelen we hetzelfde?) zijn meerdere steekproeven genomen die door alle vier de codeurs zijn gelabeld. Waar interbeoordelaarsbetrouwbaarheid nog onvoldoende bleek, is uitgebreid overlegd om de regels scherper te krijgen. Na drie overlegmomenten resulteerde dit uiteindelijk in een solide interbeoordelaarsbetrouwbaarheid voor zowel het onderwerp (Krippendorffs α=0.72), het gewichtsverlieselement (α=0.71) en de extremiteit/schadelijkheid van de video (α=0.71).

De eerste extreme eetstoornsvideo, blijkt uit deze analyse, wordt binnen ongeveer een half uur aangeraden. Voor het account ‘diëten’ duurde dat 25 minuten, voor ‘dunne vrouwen’ slechts 14 minuten en voor ‘fitness’ 33 minuten. Daarna neemt het aandeel extreme video’s behoorlijk toe, tot het hoogtepunt waarbij ongeveer een derde van de laatste vijftig video’s gelabeld is als ‘extreem’. Op dat punt zien de accounts nog relatief weinig volledig ongerelateerde video’s: bij fitness en diëten valt ongeveer een op de tien van de laatste vijftig video’s onder de categorie overig; bij het account ‘dunne vrouwen’ één op de vijf – al wordt dat verschil ook verklaard door het feit dat we video’s over mode (waaronder video’s over Brandy Melville) en video’s van dunne vrouwen maar niet extreem dunne vrouwen ook als ‘overig’ zijn gelabeld. Na ongeveer tweehonderd eetstoornisgerelateerde video’s – na ongeveer twee uur non-stop scrollen – neemt het aandeel van deze video’s (langzaam) af. Wat hieraan ten grondslag ligt, is moeilijk te achterhalen. Mogelijk zijn de meest relevante video’s op dit punt wel de revue gepasseerd, en geeft het algoritme de voorkeur aan meer bekeken video’s in de andere interesse van de accounts.

Belangrijk om te benadrukken is dat we met de geautomatiseerde accounts niet zozeer het gedrag van reguliere gebruikers proberen te benaderen. Dat is ook doorgaans de verdediging van TikTok – dat ‘Safety by design’ zegt na te streven – op dit type onderzoek. Een willekeurige tiener die TikTok op zijn telefoon installeert zal inderdaad niet binnen ongeveer een half uur overspoeld worden met eetstoornisgerelateerde video’s. We veronderstellen een bepaalde gevoeligheid – een gevoeligheid voor video’s gerelateerd aan diëten, aan fitness, aan dunne vrouwen. En bovenal: een gevoeligheid voor eetstoornisvideo’s.

Kijk je die helemaal niet, sla je die altijd over, dan kom je waarschijnlijk ook niet in een constante stroom van zulke video’s terecht. Experimenten met profielen met een heel divers palet aan interesses – eetstoornisvideo’s, maar evengoed make-up of entertainment – lieten zien dat we niet kunnen veronderstellen dat TikTok algoritmisch de voorkeur geeft aan eetstoornisvideo’s boven andere soorten video’s. Dergelijke profielen kregen wel met enige regelmaat eetstoornisvideo’s te zien, maar belanden niet in een eetstoornisfuik. Wat ons onderzoek dan ook vooral blootlegt, is hoe het algoritme associeert, hoe het video’s van extreem dunne meisjes en van bizarre diëten relateert aan mensen die eetstoornispatiënten goedbedoeld een hart onder de riem willen steken; hoe het steeds – en behoorlijk snel – gebruikers de mogelijkheid tot verdere radicalisering biedt, steeds meer van hetzelfde, en steeds extremer – om je vooral langer te laten kijken. Ook dát zijn fundamentele keuzes verankerd in het ontwerp van het aanbevelingsalgoritme.

Naast de experimenten met de geautomatiseerde accounts hebben we een aantal aanvullende analyses uitgevoerd om het fenomeen breder te kunnen situeren.

Ten eerste: een netwerkanalyse van hashtags. We hebben alle hashtags die in dit onderzoekspaper worden geanalyseerd als uitgangspunt genomen, en daarvan de dertig video’s die boven aan de zoekpagina komen (een combinatie populair en relatief recent) verzameld. Vervolgens keken we: welke hashtags komen nog meer in deze context voor? Elke hashtag die meer dan twee keer voorkwam hebben we verzameld, om van die hashtags ook weer de gerelateerde hashtags te zoeken. Dit proces hebben we vier keer herhaald. Dit resulteerde in een selectie van 4584 relevante hashtags. Hierop hebben we een netwerkanalyse uitgevoerd (zie ook onze eerdere verantwoording voor een uitleg van netwerkanalyse), waarbij twee hashtags aan elkaar verbonden zijn als ze samen in dezelfde video voorkomen.

Ook onderzochten we de populariteit van hashtags. Sinds kort geeft TikTok beperkt inzicht in de (relatieve) populariteit van hashtags over tijd en per land. Hoewel het platform geen inzicht biedt in de populariteit van de meeste aan eetstoornissen gerelateerde hashtags, gebruiken we dit om de populariteit te onderzoeken van de hashtags die voorkomen rondom hashtags over eetstoornissen . Hiervoor nemen we de meest prominente hashtags uit het hashtagnetwerk als uitgangspunt.

Om breder inzicht te krijgen in de concrete impact van TikTok, voerden we ook een beperkte woordfrequentie-analyse uit op Reddits r/edanonymous, de grootste anonieme eetstoornisgroep op Reddit, dat ongeveer honderdduizend leden telt. We hebben deze data volledig anoniem geanalyseerd en keken alleen naar patronen in het woordgebruik. Meer specifiek keken we welke platforms op deze discussiepagina het vaakst genoemd worden in het kader van eetstoornissen, wanneer TikTok opkwam in deze discussies, welke woorden er rondom de verschillende platforms werden gebruikt en wat het sentiment was rond elk platform. Hieruit bleek dat TikTok sinds 2021 niet alleen het meest wordt genoemd, maar ook het meest negatief wordt besproken.

De aanvullende analyses bevestigen des te meer dat de experimenten met de geautomatiseerde analyses op TikTok niet louter theoretische exercities zijn. Video’s gerelateerd aan diëten, fitness, gewichtsverlies en mentale gezondheid krijgen veel tractie. En die populariteit is de afgelopen drie jaar enorm toegenomen. Hoewel er in principe niets mis is met het aanjagen van een gezonde levensstijl, gaat het ons om de overdaad. Een overdaad waarin video’s over extreme eetstoornissen nooit ver weg zijn, laten ook de berichten op Reddit zien.

TikTok brak in haar ontwerp radicaal met de traditie van zogenaamde ‘social based’ platforms, zoals Facebook, LinkedIn en Instagram, waar je tijdlijn in eerste instantie vooral werd ingekleurd door de personen die jij besloot te volgen. In plaats daarvan wordt het platform als ‘content based’ in de markt gezet – TikTok kan zelf uitvogelen wat je ‘wil’ zien. En die sociale desintegratie heeft consequenties voor de manier waarop we zulke platforms moeten én kunnen onderzoeken. Op TikTok is het gemeenschappelijke dorpsplein leeg. Iedereen is naar huis, onttrokken aan het zicht van de rest. En wat het platform achter de voordeur aan ons voorschotelt, daar krijgen we maar heel mondjesmaat inzicht in. Wat dit onderzoek laat zien, stemt in dat kader weinig hoopvol.