rss rss rss
  • Home
  • Chi siamo
    • Mission
  • Diritti
    • Europa e Diritti
    • Parità
    • Diritti LGBT
    • Libertà di Scelta
    • Salute
    • Diritti Sociali
    • Educazione
    • Giustizia e Diritti
    • Fisco e Finanza Pubblica
    • Lavoro
  • Piace a Vox
  • LEGGE 40
  • Il tuo contributo
  • Dicono di noi
  • Contatti
mappa_intolleranza.2jpg-769-kH4H-U10202100666702ASE-426x240@LaStampa.it
Approfondimenti, Diritti / Giovanni Semeraro /

Analisi semantica e sentiment analysis per l’individuazione di hate speech in rete

Anche quest’anno il gruppo di ricerca SWAP del Dipartimento di Informatica dell’Università degli Studi di Bari ha dato il proprio significativo contributo alla realizzazione della quarta edizione del Progetto Mappa Italiana dell’Intolleranza.

La nostra piattaforma per l’estrazione e l’analisi di dati sociali rappresenta infatti, sin dalla prima edizione della Mappa, il fulcro tecnologico dell’intero progetto. Quest’anno i nostri algoritmi sono riusciti ad intercettare circa 215.000 Tweet in lingua italiana (ed oltre 60.000 correttamente geo-localizzati sul nostro territorio), distribuiti nei sei cluster di riferimento (Omofobia, Razzismo, Antisemitismo, Sessismo, Disabilità, Islamofobia).

Sul piano metodologico, l’utilizzo di tecniche più sofisticate e precise per l’individuazione di hate speech, ci ha permesso di fornire come output finale del progetto una immagine sempre più precisa relativa alla diffusione dei discorsi d’odio in Rete. Fin dalla prima edizione, infatti, abbiamo enfatizzato la complessità del task di individuazione dei discorsi d’odio, a causa principalmente di due fattori: (i) l’ambiguità di alcuni termini del linguaggio che rendono poco efficaci i meccanismi di ricerca e di ritrovamento basati sul semplice matching dei termini contenuti nel Tweet con un lessico di riferimento (finocchio, terrorista, ebreo, sono termini di uso comune utilizzati anche in scenari comuni e senza accezione negativa); (ii) l’esigenza di contestualizzare e di comprendere l’opinione, positiva neutra o negativa, convogliata dal Tweet. Infatti, termini che possono potenzialmente indicare la presenza di hate speech spesso vengono utilizzati anche senza quel tipo di scopo (pensiamo banalmente a Tweet ironici).

Per questo motivo, l’impianto metodologico implementato nella nostra piattaforma per l’estrazione di contenuti testuali ha dato particolare importanza allo studio e al progressivo miglioramento delle tecniche di analisi semantica e di sentiment analysis, metodologie a stato dell’arte per risolvere i problemi appena menzionati. Nello specifico, gli algoritmi di analisi semantica adottati nel progetto sono basati su tecniche di comprensione del linguaggio. Tali tecniche ci hanno permesso di disambiguare correttamente Tweet potenzialmente innocui, escludendoli dall’analisi, e di includere invece contenuti effettivamente atti a convogliare discorsi d’odio. In generale questo tipo di tecniche sono basate sull’analisi dei termini presenti nel Tweet e del contesto (inteso come i concetti che co-occorrono con i termini potenzialmente intolleranti presenti nel testo) in cui tali termini vengono utilizzati, e restituiscono una predizione del particolare significato (intollerante o meno) che quella parola assume in quello specifico scenario.

Il ruolo della sentiment analysis, invece, ha continuato ad essere di fondamentale importanza per la generazione di output precisi ed efficaci. L’utilizzo di tali tecniche, infatti, è orientato ad associare una polarità (positiva o negativa) al Tweet sulla base dell’accezione del Tweet stesso.

In questo caso, l’utilizzo di tecniche innovative ci ha permesso di etichettare correttamente i discorsi d’odio anche in assenza di un preciso lessico aggressivo (es., il celebre ‘aiutiamoli a casa loro’) presente nel testo. Una novità metodologica di quest’anno è rappresentata anche dall’analisi di bi-grammi (sequenze di termini), che ci ha permesso di filtrare correttamente espressioni e locuzioni di uso comune (es. Porca Put…) che non denotano la presenza di discorsi d’odio pur contenendo termini del nostro lessico.

Un’ultima nota metodologica riguarda le mappe, costruite utilizzando la tecnica delle “heat map” (tonalità più vicine al rosso denotano una maggiore concentrazione dei contenuti). In merito a questo, è importante sottolineare che l’individuazione delle aree maggiormente caratterizzate dalla produzione di discorsi d’odio non è basata sul semplice conteggio dei Tweet provenienti da quell’area. La metodologia adottata è invece basata su un meccanismo di pesatura che tiene in considerazione altri fattori, come la numerosità media di Tweet provenienti da una specifica area o la diffusione di utenti in quella particolare zona del Paese.

Da Marzo a Maggio gli utenti di Twitter hanno messo a “dura prova” i nostri algoritmi e i nostri server, sempre in ascolto e sempre alla ricerca di nuove sfumature di significato utilizzate dagli utenti per disseminare hate speech in Rete.

Nonostante la complessità del task, però, qui a Bari siamo molto soddisfatti della qualità della ricerca e della qualità dell’output prodotto, che si è rivelato essere preciso e presumibilmente fedele alle dinamiche reali che caratterizzano il comportamento degli individui nel nostro Paese.

Come dimostrato dai risultati pubblicati, infatti, il cluster più corposo è rappresentato dai contenuti intolleranti pubblicati verso i migranti (49.000 Tweet circa, 32% sul campione totale, con un incremento di 18 punti percentuali rispetto alla terza edizione del processo), tema quotidianamente dibattuto in Rete e sui giornali.

Tali numeri dimostrano ancora una volta che i temi centrali nel dibattito politico e frequentemente all’ordine del giorno nell’opinione pubblica vengono poi ripresi con altrettanta frequenza ed aggressività dai comuni cittadini che navigano in Rete, ulteriore segnale del fortissimo legame che caratterizza il comportamento on-line degli individui e i loro orientamenti nel mondo reale.

Scritto da: Giovanni Semeraro

Vox News

IN COLLABORAZIONE E PARTNERSHIP CON

Voci

foto sito2022-426x268

La nuova Mappa dell’Intolleranza 7

Redazione Vox

Esce la settima edizione della Mappa voluta...

foto sito2021-426x268

La nuova Mappa dell’Intolleranza 6

Redazione Vox

Nel secondo anno della pandemia da COVID-19,...

foto sito-426x268

La nuova Mappa dell’Intolleranza 5

Redazione Vox

Nell’anno della pandemia l’odio online si concentra...

shutterstock_1340806379

Fake news e strumenti di contrasto ai tempi della pandemia da Covid-19

Barbara Lucini

Fin dall’inizio della pandemia da Covid-19 si...

mappa dell'intolleranza 4

La nuova Mappa dell’Intolleranza 4

Redazione Vox

Esplode in un anno l’odio contro migranti,...

mappa dell'intolleranza xenofobia

Mappa dell’Intolleranza 4: esplode la xenofobia

Redazione Vox

Contro i migranti si moltiplicano i tweet...

mappa dell'intolleranza musulmani

Mappa dell’intolleranza 4: musulmani = terroristi

Redazione Vox

I musulmani? Per gli haters sono tutti...

mappa dell'intolleranza omofobia

Mappa dell’Intolleranza 4: omofobia e odio

Redazione Vox

L’intolleranza diminuisce, ma se si parla di...

d20d96404eb7a0d0faac3d3c1dfcce

Nuove regole per la comunicazione online

Barbara Lucini

La nuova versione della Mappa dell’Intolleranza pubblicata...

hate speech

Sulla strada giusta

Federico Faloppa

Di hate speech si è scritto molto...

Approfondimenti

foto sito2022-426x268

Hate speech, un fenomeno radicato ma in continuo mutamento, che va indagato a fondo

Federico Faloppa

Anche quest’anno i numeri parlano chiaro. Di...

foto sito2022-426x268

Identità digitali fra comunicazione e radicalizzazione

Barbara Lucini

La settima edizione della Mappa dell’intolleranza promossa...

foto sito2022-426x268

Conoscenza e contronarrazione per fermare l’odio

Redazione Vox

La presentazione della sesta edizione della Mappa...

foto sito2022-426x268

Discorsi d’odio e diritti della persona

Marilisa D'Amico

I risultati della settima edizione della Mappa...

foto sito2022-426x268

Contro l’odio c’è bisogno di più cura

Silvia Brena

Sappiamo molto, oggi, delle vie di diffusione...

cluster2022_6

Mappa dell’Intolleranza 7: omofobia

Redazione Vox

I gay tornano nel mirino. Nel 2022...

cluster2022_2

Mappa dell’Intolleranza 7: antisemitismo

Redazione Vox

A Roma e nel Lazio l’antisemitismo più...

cluster2022_1

Mappa dell’Intolleranza 7: disabilità

Redazione Vox

Disabilità, mai così alto l’odio in Italia....

cluster2022_4

Mappa dell’Intolleranza 7: islamofobia

Redazione Vox

In discesa, l’islamofobia resta però ancorata allo...

cluster2022_5

Mappa dell’Intolleranza 7: misoginia

Redazione Vox

Le donne? Ancora le più odiate, colpite...

  • © Copyright Vox Diritti / All Rights Reserved       Privacy Policy
Questo sito o gli strumenti terzi a questo utilizzati si avvalgono di cookie necessari al funzionamento ed utili in base alle finalità illustrate nella cookie policy. Se vuoi saperne di più o negare il consenso, consulta la cookie policy.Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione, acconsenti all'uso dei cookie.OkLeggi di più