Bemærk Denne artikel blev udgivet for over en måned siden

VALG 2019: Kvinder nedgøres oftere end mænd i politiske debatter på sociale medier

Indsigt 28. maj 2019 - 15:58 5 min læsetid

Skrevet af: Leon Strømberg-Derczynski

Leon Strømberg-Derczynski, adjunkt på IT-Universitetet (ITU). Han leder et forskningsprojekt om Natural Language Processing (NLP), som er et område inden for datalogi, der beskæftiger sig med analyse og forståelse af talt og skrevet sprog, ofte med brug af machine learning.

Denne artikel er den tredje i en serie af NLP-analyser af diskursen på sociale medier omkring folketingsvalget 2019.

LÆS OGSÅ: Analyse: Sådan fordeler vælgerne sig på de sociale medier

LÆS OGSÅ: Rød blok diskuterer især klima, blå blok diskuterer flygtninge - men vælgerne diskuterer andre emner

Det er i høj grad kvinder, der står på mål, når der bliver anvendt et krænkende ordvalg i den politiske debat. Det er bare en af konklusionerne i en dataanalyse, som IT-Universitetet (ITU) står bag.

Det er Leon Strømberg-Derczynski, der er adjunkt på IT-Universitetet (ITU), som ved hjælp af teknologien Natural Language Processing (NLP) har analyseret det sprog, som brugere af sociale medier anvender.

Cybermobning, online chikane og hate speech er en uheldig side af onlinedebatten, men de har stor menneskelig påvirkning. I mange lande er krænkende sprogbrug online ulovligt, og websider bliver retsforfulgt og folkene bag idømt bøder, hvis deres brugere skriver ubehagelige ting.

Og denne tredje TjekDet-artikel i rækken af NLP-analyser af folketingsvalget 2019 undersøger netop, hvordan det i øjeblikket står til med online krænkelser og hate speech i den politiske debat på sociale medier i Danmark.

Først et par definitioner. Cybermobning (cyber bullying) er online trusler og aggressioner mod et individ. Hate speech (hadtale) er aggressivt eller nedværdigende sprog mod en befolkningsgruppe, og onlinechikane (online harrassment) er gentagen kontakt til en person med formålet at irritere eller genere vedkommende. Nogle tilfælde af krænkende sprogbrug i de ovenstående tre kategorier er ulovlige, og de fleste er skadelige. Selvom der er forskellige meninger om, hvor grænsen for krænkelser bør gå, så har online krænkelse en så skadevoldende effekt på mennesker, at det er en sag, som bør tages alvorligt.

Den danske lovgivning nævner ikke online mobning eller krænkelse, men straffelovens §266a skriver, at det er ulovligt at true med strafbare handlinger, ligesom det er ulovligt at "true, forhåne eller nedværdige" personer på grund af deres race, hudfarve, etnisk oprindelse, tro eller seksuelle orientering. Desuden er Danmark tilsluttet FN’s konvention om borgerlige og politiske rettigheder, som siger at incitamenter til diskriminering, fjendtlighed og vold skal forbydes ifølge lov.

Det er vigtigt at kunne identificere online krænkelse automatisk. For det første er der store mængder af det, så det er vanskeligt at opfange det manuelt. For det andet kan det have store negative psykologiske følgevirkninger for mennesker, som skal behandle den type data i mange timer om dagen.

I vores analyse er deep learning-teknologien "autoencoding" anvendt til at gennemgå store mængder tekst fra danske brugere på sociale medier. Systemet er udviklet til at genkende krænkende kommentarer. Generelt er der meget lidt dansk data på dette område, så resultaterne er omtrentlige.

Til trods for dette skal vi ikke kigge langt efter krænkende sprog online i Danmark. Stødende omtale kan være målrettet et individ: "hold nu kæft din uduelig curling minister", "[XXX] er en elendig fodboldspiller" eller en gruppe: "kvinder - de skal bare holde deres kæft", "#islamerproblemet #deuønskede". Nogle beskeder indeholder decideret fysiske trusler, oftest figurative: "men vi fucking smadrer dig hvis vi ikke kan lide dig".

Den højeste ratio af krænkende sprog i den politiske debat ses hos dem, der støtter Stram Kurs, efterfulgt af Dansk Folkepartis og Nye Borgerliges støtter - specielt på Facebook. SF-støtterne er også involveret i nogle intense debatter.

Alternativets støttere bruger ikke udbredt aggressivt sprog, men vi så i artikel 1 i serien, at Alternativets følgere især er aktive på Instagram, hvor omgangstonen generelt er mere positivt farvet.

Frekvensen af krænkende sprog er nogenlunde ens for både rød og blå bloks følgere - omkring 2,5 procent (±0.35 procent) af alle opslag og kommentarer. Fordelt på de forskellige sociale medier kan vi se, at krænkende sprog er næsten fuldstændig fraværende på Instagram. Tweets fra politisk aktive brugere har en andel af 2.7 procent (±0.38 procent) krænkende sprog, mens brugerne på Facebook markerer sig med en andel på hele 6.9% (±1.0 procent) nedgørende opslag og kommentarer.

Facebook selv er generelt meget aktive i kampen mod hate speech. De har en frivillig aftale med EU om at fjerne opslag, som indeholder hate speech inden for 24 timer. Ud fra den store mængde krænkende opslag, vores analyse kunne opfange, kan det formodes, at Facebook ikke har gode detektorer for krænkelse i det danske sprog. En anden mulighed er, at kommentarerne ikke er grove nok til at falde under kategorien hate speech.

Vi kan også bruge analysen til at detektere, hvilke grupper der primært er ofre for chikane, hate speech og krænkende beskeder. Vi har fokuseret på beskeder med hashtagget #dkpol, for at begrænse analysen til den politiske debat.

Islam og Islam-tilhængere bliver refereret til i 4.2 procent (±0.6 procent) af krænkende kommentarer.

Kvinder er mål for aggressive kommentarer i 3.2 procent (±0.45 procent) af kommentarerne, og når et individ bliver nævnt, er det i 82,7 procent af tilfældene en kvinde, mens "kun" 20,5 procent af krænkende kommentarer rettet mod et individ, refererer til en mand.

Fysiske trusler i denne del af den politiske debat er lav, kun 0,7 procent af alle krænkende beskeder. Dette er et godt tegn, enten på en ordentlig tone i debatten, eller - mere sandsynligt - på, at de sociale platforme er hurtige til at fjerne de ulovlige kommentarer.

Data er indsamlet fra offentligt tilgængelige opslag på Facebook og Instagram, samt API-adgang (premium access) til Twitter.
I materialet indgår de seneste op til 200 opslag fra hvert parti og deres støttere.
’Støttere’ defineres som brugere af sociale medier, der deler tekster og indhold fra de forskellige partiers egne sider på Facebook og Twitter.
Citerede retweets indgår ikke i datasættet, da disse betragtes som upålidelige indikatorer i forhold til at fastslå, hvorvidt en twitterbruger støtter det parti, som står bag tweetet.
Instagram skiller sig ud fra de øvrige platforme. Dels indeholder det sociale medie ikke mulighed for at dele opslag, dels er Instagram designet til at fremme positive interaktioner. Det er blandt andet årsagen til, at ’støttere’ af bestemte partier på Instagram defineres, som brugere, der kommenterer et partis opslag.
Et mindretal af retweets og delinger falder i kategorien ironiske eller sarkastiske. De er vanskelige for både computere og mennesker at identificere korrekt. Selvom der eksisterer uenighed om, hvilke beskeder der er ironiske eller sarkastiske, viser flere undersøgelser, at der er generelt bred enighed om, hvornår de ikke-ironiske beskeder simpelthen ikke er hverken ironiske eller sarkastiske. Derfor har ironiske eller sarkastiske retweets og delinger en meget lille indflydelse på det generelle dataset.
Med store datasæt bliver fejlene udlignet. For eksempel vil omfanget af sarkastiske delinger fra støttere af et bestemt parti normalt svare til omfanget af sarkastiske delinger fra støttere af et andet parti.
Ligesom analyser lavet af mennesker, vil datadrevne kvantitative analyser også være behæftet med en given usikkerhed.

Analysen er udarbejdet af Leon Strømberg-Derczynski, adjunkt på IT-Universitetet (ITU), med bidrag fra Torben Oskar Albert-Lindqvist, Marius Venø Bendsen, Nanna Inie, Jens Egholm Pedersen, Viktor Due Pedersen og Troels Runge, der alle indgår i NLP-forskerteamet på ITU.

ARTIKLEN ER OPDATERET 20-06-2019: Overskriften var tidligere "Kvinder får langt flere verbale bank på sociale medier end mænd". Overskriften er nu ændret, så den i højere grad understreger, at artiklen specifikt handler om den politiske debat på sociale medier under valgkampen 2019 - og altså ikke generelt. Af samme grund er der i underrubrikken tilføjet sætningen "Valgkampen trækker ofte fronterne op".

Artiklen er produceret af Mandag Morgen for TjekDet

DEL ARTIKLEN MED DINE VENNER

Opdateret 20. dec 2023 - 13:50

Vil du vide mere?