Case Cardiffin Yliopisto

Vihapuheen tunnistus ja analyysi julkipilvessä.

Case Cardiffin Yliopisto

Vihapuheen tunnistus ja analyysi julkipilvessä.

Gofore toteuttaa Cardiffin yliopiston kanssa skaalautuvia, pilvipohjaisia sosiaalisen median analytiikkatyökaluja, jotka tarjoavat viranomaisille ja muille organisaatioille tehokkaita keinoja vihapuheen tunnistamiseen ja vähentämiseen.

Cardiffin yliopisto on toiminut vuodesta 1893 alkaen ja kuuluu yli 30 000:lla opiskelijallaan Yhdistyneen Kuningaskunnan kymmenen suurimman yliopiston joukkoon. Yliopiston Social Data Science Lab tutkii sosiaalisia ilmiöitä data-analyysin avulla ja kehittää työkaluja tutkimuksen ja päätöksenteon edistämiseksi.

Vuoden 2016 Brexit-äänestyksen ja 2017 terrori-iskujen jälkeen viharikosten määrä Britanniassa kasvoi erittäin nopeasti. Sosiaalisten tieteiden professori Matthew Williams sanoi: ”Analyysimme osoittaa, että lehdistön, vapaaehtoisjärjestöjen ja poliisin julkaisut sosiaalisessa mediassa olivat merkittävässä asemassa terrori-iskujen jälkeen. He pystyivät osallistumaan keskusteluihin hälventäen huhuja ja stereotypioita, tukien uhreja ja estäen vihapuheen leviämistä.”

Cardiffin yliopistossa oli kehitetty ensimmäinen versio vihapuhetta analysoivasta työkalusta. Se vaati kuitenkin jatkokehitystä. Erityisesti työkalusta toivottiin helpommin laajennettavaa. Järjestelmän kokonaisarkkitehtuuri vaati uudelleensuunnittelua ja myös käyttöliittymään haluttiin merkittäviä parannuksia. Palvelu haluttiin siirtää julkipilveen ja hyödyntää sen tarjoamaa skaalautuvuutta ja tehokkuutta. Tammikuussa 2019 Gofore voitti julkisen kilpailutuksen ja ja ryhtyi jatkokehittämään työkalua. Projektin rahoituksen yliopistolle myöntää Britannian Economic and Social Research Council (ESRC).

Kohdistetusta pilotista laajamittaisempaan käyttöön

Heti aluksi työkalun pilottiversio rakennettiin Amazon Web Services -ympäristöön. Käyttöliittymä, mukaan lukien datan keräys ja erilaiset visualisoinnit, suunniteltiin huomioiden pilottikäyttäjien tarpeet vaiheittaisen käyttäjätutkimuksen avulla. Ohjelmistoarkkitehtuurin avulla toteutettiin reaaliaikainen sekä laajasti skaalautuva datavirta ja sisältöjen luokittelu Twitteristä. Cardiffin yliopiston kehittämät luokittelijat integroitiin osaksi järjestelmää. Luokitellun sisällön metadatan avulla luotiin visualisoinneissa käytettävä aineisto. Käyttöliittymä ja työkaluun kirjautuminen toteutettiin selaimella toimivana verkkopalveluna. Pilottikäyttäjänä toimi Britannia kansallinen Online Hate Crime Hub, joka otti työkalun heti aktiiviseen käyttöön.

Toisessa vaiheessa keskityttiin järjestelmän laajentamiseen. Pilottikäyttäjän lisäksi tunnistettiin kolme muuta työkalusta kiinnostunutta organisaatiota, joiden odotukset ja vaatimukset kartoitettiin kokonaisvaltaisen käyttäjätutkimuksen avulla. Ohjelmiston arkkitehtuuria kehitettiin niin, että uusien rinnakkaisten työkaluympäristöjen luonti julkipilveen pystyttiin automatisoimaan Terraform-teknologialla. Käyttöliittymän kehitystä jatkettiin ja työkaluun lisättiin uusia toimintoja saadun käyttäjäpalautteen perusteella. Olemassa olevien luokittelijoiden käyttöä tehostettiin.

Järjestelmän luokittelijat ovat koneoppimisella koulutettuja luonnollisen kielen prosessoijia, jotka tunnistavat vihapuhetta useilla eri alueilla, esim. äärioikeistolaista, juutalais- tai muslimivastaista, sekä seksuaalivähemmistöihin kohdistuvia hyökkäyksiä. Uusien luokittelijoiden kehitystä, opetusta ja integrointia varten luodun suoraviivaisen prosessin avulla uusien luokittelijoiden luonti järjestelmään helpottuu merkittävästi.

Koko kehityksen ja käytön ajan sovelluksen operoinnista on vastannut Goforen ylläpitopalvelu.

Järjestelmä mahdollistaa vihapuheen nopean tunnistamisen ja siihen reagoinnin

Jo pilottivaiheessa Britannian kansallinen Online Hate Crime Hub pystyi tunnistamaan sosiaalisessa mediassa esiityvää vihapuhetta lähes reaaliaikaisesti. Työkalu auttoi heitä huomaamaan uudet aiheet ja niihin liittyvät tunnisteet (Hashtagit) nopeasti, ja niiden myötä löytämään ja seuraamaan syntyviä jännitteitä erilaisissa yhteisöissä. Lisäksi jännitteisiin pystyttiin reagoimaan välittömästi faktapohjaisella ja kiihkottomalla informaatiolla.

Uusimmalla laajennetulla ja skaalautuvalla ratkaisulla useat uudet organisaatiot, jotka taistelevat sosiaalisessa mediassa leviävää syrjintää, epätasa-arvoa ja vihapuhetta vastaan, saavat käyttöönsä tehokkaan työkalun, jonka avulla voivat kohdistaa rajalliset voimavaransa oikein.

Professori Matthew Williams summaa saavutukset: “Alunperin epävakaa tekninen ympäristö teki HateLabin vaatimuksista kehitystyölle haastavia. Gofore tarttui haasteeseen ja toimitti kaikki parannukset ripeästi. Hyvä kommunikaatio teki koko prosessista sujuvan.”

Käytettyjä teknologioita

  • Twitter Enterprise API, Twitter free API v2, Pushshift API for Reddit etc.
  • AWS Lambdas, Firehose, Elastic Container Service (ECS), REST API
  • Docker, Terraform, Infrastructure as Code (IaC)
  • Koneoppiminen, luonnollisen kielen prosessointi (Natural Language Processing, NLP)

Lisätietoa (englanniksi)

Projektin kohokohdat

Check icon

Pilvipalvelujen kokonaisvaltainen käyttö

Tehokas AWS-palvelujen käyttö. Useita datalähteitä. Automatisoitu organisaatiokohtaisten työkaluympäristöjen luonti.
Check icon

Reaaliaikainen datan analytiikka ja luokittelu

Jatkuva datan keräys. Vihapuheen visualisointi minuutin tarkkuudella ja pidempiaikaiset analyysit.
Check icon

Yhtenäisyyttä jännitteiden sijaan

Nopeat reaktiot vihapuheeseen. Kiihkotonta ja faktoihin perustuvaa vastapuhetta. Ylikärjistävien reaktioiden lieventäminen.

"Alunperin epävakaa tekninen ympäristö teki HateLabin vaatimuksista kehitystyölle haastavia. Gofore tarttui haasteeseen ja toimitti kaikki parannukset ripeästi. Hyvä kommunikaatio teki koko prosessista sujuvan."

Matthew Williams

Professori

Cardiffin Yliopisto

Vakuutuitko? Ole yhteydessä ja jutellaan lisää.

Jussi Puustinen

Pilvi- ja jatkuvat palvelut