We are living in the middle of a data revolution. In a digitalising service society, value and wellbeing are increasingly being created through services and platform industries. Data is at the heart of this reform, enabling intelligent and human-centered services.

Organisations are striving to collect and utilize all available data; otherwise they may fall behind in terms of development and competition. They have difficulty distinguishing the important from less important things and – most frighteningly – they are unable to transition to data-driven operations.

Much is said about the importance of data, but too little on the importance of strategic work on data, and far too little on setting guidelines for MyData.

MyData – what are we talking about?

MyData refers to an entity that promotes people’s visibility and right to their own digital information. MyData becomes a model of personal information management and exploitation, where a person is given the right and the means to access, use and pass on their own information.

MyData should not be confused with open data, which means data that is open to everyone for free and is free for any purpose. MyData is only freely available to the person him/ herself, and he/she has the right to decide where to share – if anywhere.

Create a data strategy for your organisation

Data strategy is based on the value the organisation expects to bring to its operations. The data strategy can be divided into four tasks:

1. Set a clear vision for data utilisation.
2. Define the value of data to the organisation.
3. Create clear actions to implement the strategy.
4. Take MyData principles into account in your strategy.

The vision crystallises the organisation’s ideal situation for exploiting data. However, the vision alone does not motivate people to do the necessary things. Instead, there must be clear and simple tasks that people can grasp. It is the responsibility of management to set the vision and its value, and to get people interested.

Aurora AI: impact on societal level

In Finland, society is being developed to be more proactive and human-oriented. This work is being run and supported by the state. An example is the Aurora Preliminary Exploration Project of the National Artificial Intelligence Programme, where the strong background factors were:
– ethical sustainability
– trust in society
– safe technical solutions
– more comprehensive use of technological potential than before
– empowering citizens
– improving the overall wellbeing and vitality of people and organisations.

In Aurora, work was based on data and its different levels of utilisation.

We individuals will benefit the most

As we build a better and more sustainable society for us all, MyData’s role for the individual will be enhanced in the development of our services. On the other hand, organisations can use MyData to get more complete insight into their services as well as their strategic leadership.

Matti Saastamoinen
Kaija Puranen

Matti Saastamoinen

Matti Saastamoinen

Matti toimii Goforella vanhempana palveluarkkitehtina. Hänellä on pitkä kokemus julkishallinnon muutosprojekteista muun muassa sosiaali- ja terveysministeriön, Tampereen kaupungin ja Business Tampereen kanssa. Matin sydäntä lähellä ovat datan ja dataohjautuvuuden tarjoamat mahdollisuudet koko yhteiskunnalle ja hän on auttanut useita kaupunkeja ja organisaatioita Suomessa avaamaan dataansa kaikkien käyttöön.

Linkedin profile
Kaija Puranen

Kaija Puranen

Kaija toimii Goforella johdon konsulttina. Kaijan työkalupakista löytyy niin perinteisten projektimenetelmien parhaat palat kuin myös ketterät menetelmät sekä niiden isoille projekteille ja organisaatioille skaalatut versiot. Ennen Goforea Kaija teki pitkän uran Microsoftilla ja Nokialla.Juuri nyt Kaijaa eniten työllistävät asiakaslähtöisyyteen liittyvät muutosprojektit, niissä erityisenä kiinnostuksen kohteena ovat johtamiskulttuurin muutos, rikastetun datan tuomat mahdollisuudet sekä GDPR vipuvoimana.

Linkedin profile

Piditkö lukemastasi? Jaa se myös muille.

Suomalainen julkinen sektori on jo kohtalaisen hyvin digitalisoitunut yksinkertaisten perustarpeiden hoitamisessa. Ihmiset osaavat käyttää erilaisia portaaleja ja mobiilisovelluksia, varata lääkärin tai päiväkotipaikan, mutta millaisia katvealueita järjestelmiin jää, kun ihminen muuttaa uuteen opiskelukaupunkiin, eroaa tai hänen läheisensä kuolee? Miten paljon työllistymiseen vaikuttavat ihmisen terveys, koulutus, asuinpaikka ja taloudellinen tilanne?

– Nämä ovat umpisolmuja, joita on vaikea avata; solmun avaamisessa haasteena ovat etiikka ja juridiikka, huomauttaa tekniikan tohtori ja datatieteilijä Pasi Lehtimäki, joka työskentelee digitalisaation asiantuntijayrityksessä Gofore Oyj:ssä johtavana konsulttina.

– Jotta dataa voidaan käyttää palvelujen kehittämisen apuna, tarvitaan väistämättä henkilötietoja. Moni ihminen ajattelee, että tietoja ei voi kerätä ilman rekisteröidyn lupaa, mutta tietoja esimerkiksi lapsiperheiden tilanteesta voi käyttää, kunhan henkilötiedot anonymisoidaan tai tietoja ei voida yhdistää yksittäiseen henkilöön. Datasta voidaan louhia esille relevantteja ilmiöitä, joita ilman perheille tarjotaan helposti vääränlaisia palveluita tai he eivät saa palveluita lainkaan, Lehtimäki jatkaa.

Datan hyödyntäminen on luottamuskysymys

Ihmiset pelkäävät, että tietoa käytetään heitä vastaan, mutta laki suojelee hyvin tarkkaan ihmisten yksityisyyttä. GDPR vaatii, että ihmisten identiteetti irrotetaan datasta mahdollisimman varhaisessa vaiheessa.

Toinen oleellinen kysymys on keneen ihminen voi olla yhteydessä, jos algoritmi loukkaa kansalaisen oikeuksia? Digitalisaatio on tuonut mahdollisuuksia, joita juridiikka ei tunnista. Tässä tarvitaan etiikkaa.

– Emme voi käydä yhteistä vuoropuhelua mitä haluamme tehdä ja mitä emme, jos emme tunnista omia ajatusvääristymiämme. Tekoäly kykenee yhdistämään tuhansien syöpälääkäreiden kokemuksen ja datan kymmenestä miljoonasta potilaasta. Yksittäinen potilas voi hyötyä, kun tekoäly tekee syöpädiagnoosin. Tieto kumuloituu tekoälyyn, mutta johtaako se siihen, että kolmenkymmenen tai viidenkymmenen vuoden päästä meillä ei ole ihmislääkäreitä, jotka ymmärtäisivät syy-seuraussuhteita? Kumpi on tärkeämpää, auttaa nyt mahdollisimman montaa potilasta vaiko säilyttää ihmisen kyky tehdä diagnooseja? Emme voi keskittyä yksittäisiin sovelluksiin ja niiden kehittämiseen, vaan on käytävä yhteiskunnallista keskustelua pitkän aikavälin tavoitteista, sanoo Lehtimäki.

Koneoppiminen on muuttanut ohjelmistokehitystä radikaalisti. Tietokoneelle voidaan opettaa lähes minkä tahansa ongelman ratkaisu kirjoittamatta yhtäkään riviä koodia, kone oppii sille esitetyn datan perusteella. Mutta data on usein vääristynyttä. Sairaaloissa ei kerätä terveys- vaan sairausdataa. Poliisin data koostuu pidätyksistä. Näin alkuperäinen asennevirhe vahvistuu.

– Kun ajattelutapoja ja tietoja dokumentoidaan, on oltava tarkkana, että samalla ei siirretä ajatusvääristymiä. Haasteena on, miten saadaan realistista ja objektiivista dataa. Jos halutaan älykkäitä kaupunkeja, näihin asioihin on kiinnitettävä huomiota, Lehtimäki painottaa.

 

Alkuperäinen julkaisu 26.6.2020, Kehittyvät kaupungit

Pasi Lehtimäki

Pasi Lehtimäki

Pasi on johdon konsultti, jonka sydän sykkii analytiikalle. Hän auttaa asiakkaita hyödyntämään dataa ja analytiikkaa digitalisoituvassa toimintaympäristössä. Hän kehittää Goforen analytiikkatarjoamaa ja innovatiivista, analytiikkaosaajien yhteisöä.

Linkedin profileTwitter profile

Piditkö lukemastasi? Jaa se myös muille.

What kind of data companies have the most? Most likely text data like Word and PDF documents. For example, there could be documents about customer feedback, employee surveys, tenders, request for quotations and intranet instructions. International companies have those documents even in multiple different languages. How can you analyze multilingual documents with Natural Language Processing (NLP) techniques?

NLP is a subset of Artificial Intelligence (AI) where the goal is to understand human’s natural language and enable the interaction between humans and computers. The interaction can be both with spoken (voice) or written (text) language. Nowadays, many latest state of the art NLP techniques utilize machine learning and deep neural networks.

One of the NLP tasks is text classification. The goal of text classification is to correctly classify text into one or more predefined classes. For example, customer feedback text document could be classified to be positive, neutral or negative feedback (sentiment analysis). Request for quotation document could be classified to the backlog of the correct sales team of the company. Thus, the NLP model gets text as an input and outputs some class.

During the last couple years, NLP models based on the neural network “Transformer” architecture, like Google’s BERT model, have broken many records of different NLP tasks. Those models are really interesting and have even made headlines like too dangerous to be openly released. However, they mostly have only supported English or other popular languages. What if you would like to classify text in Finnish or Swedish or both?

Multilingual text classification

Until recently, openly released multilingual NLP models like Google’s multilingual version of the BERT have not performed as well as monolingual models especially in low-resource languages like Finnish. For example, monolingual Finnish FinBERT model clearly outperforms multilingual BERT in Finnish text classification task.

However, at the end of 2019 Facebook’s AI researchers published a multilingual model called XLM-R supporting 100 languages including Finnish. XLM-R was able to achieve state of the art results in multilingual NLP tasks and also be very competitive against monolingual models in low-resource languages. This new model looked very interesting so I decided to try it out for multilingual text classification.

Hugging Face’s “Transformers” Python library is really awesome for getting an easy access to the latest state of the art NLP models and using them for different NLP tasks. XLM-R model is also available with the Transformers library. We can take the pre-trained XLM-R model and utilize “transfer learning” concept to finetune the model to for example classify news article texts to news category classes. In the context of these NLP models, transfer learning means having a pre-trained general-purpose NLP language model which has been trained on a large text corpus (XLM-R was trained with more than two terabytes of text data!) and then the model is further trained with a lot smaller dataset to perform some specific NLP task like text classification.

For this experiment, my goal is to finetune the XLM-R model to classify multilingual news article texts to corresponding news categories. That is a supervised machine learning task so the dataset I am using is a labeled dataset containing news article texts and their category names. Another really interesting feature of the XLM-R and other multilingual models is their “zero shot” capability meaning you can finetune the model with a dataset of only one language and the model will transfer the learned knowledge to other supported languages as well. Since I am especially interested in Finnish language capabilities of the XLM-R model, the dataset contains only Finnish news articles with their categories. Thanks to the “zero shot” capability, the XLM-R model should also be able to classify news articles in other languages too in addition to Finnish. You can see an example of the dataset in the table below.

In total, there are only 3278 rows in my dataset so it is rather small but the power of earlier introduced “transfer learning” concept should mitigate the issue of small number of training data. The dataset contains 10 unique news category classes which are first changed from text to numerical representation for the classifier training. The dataset is also splitted into train and test sets with equal distribution of different classes. Finally, the XLM-R model is trained to classify news articles.

In the picture below you can see training and validation losses which both follow quite nice downward trend on training steps which means the model is learning to do classification more accurately. Validation loss is not increasing in the end so the finetuned XLM-R model should not be overfitted. Overfitting means that the model would learn too exactly classify text in the training dataset but then it would not be able to classify new unseen text so well.

Another model evaluation metric for multiclass classification is the Matthews correlation coefficient (MCC) which is generally regarded as a balanced metric for classification evaluation. MCC values are between -1 and +1 where -1 is totally wrong classification, 0 is random and +1 is perfect classification. With the testing dataset, the MCC value for the finetuned XLM-R model was 0.88 which is quite good. The result could be even better with larger training dataset but for this experiment the achieved performance is sufficient.

The most interesting part of the finetuned XLM-R model is to finally use it for classifying new news articles what the model has not seen during the earlier training. In the table below, you can see examples of correctly classified news articles. I tested the classification with Finnish, English, Swedish, Russian and Chinese news articles. The XLM-R model seemed to work really well with all of those languages even though the model was only finetuned with Finnish news articles. That is a demonstration of the earlier mentioned “zero shot” capability of the XLM-R model. Thus, the finetuned XLM-R model was able to generalize well to the multilingual news article classification task!

Multilingual vs monolingual NLP models

In the original research paper of the XLM-R model, researchers state that for the first time, it is possible to have a multilingual NLP model without sacrifice in per language performance since the XLM-R is really competitive compared to monolingual models. To validate that, I also decided to test the XLM-R against monolingual Finnish FinBERT model. I finetuned the FinBERT model with the exact same Finnish news dataset and settings than the earlier finetuned XLM-R model.

Evaluating performances of the FinBERT and XLM-R with the testing dataset showed that the monolingual FinBERT was only a little better in classifying Finnish news articles. In the table below, you can see evaluation metrics Matthews correlation coefficient and validation loss for both models.

This validates findings of Facebook AI’s researchers that the XLM-R model can really compete with monolingual models while being a multilingual model. While the FinBERT model can understand Finnish text really well, the XLM-R model can also understand 99 other languages at the same time which is really cool!

Conclusion

Experimenting with the multilingual XLM-R model was really eye-opening for me. Especially, the “zero shot” capability of the XLM-R model was quite jaw dropping at the first time when you saw the model classify Chinese news text correctly even though the model was finetuned only with Finnish news text. I am excited to see future developments in the multilingual NLP area and implement these techniques into production use.

Multilingual NLP models like the XLM-R could be utilized in many scenarios transforming the previous ways of using NLP. Previously, in multilingual NLP pipelines there have usually been either a translator service translating all text into English for English NLP model or own NLP models for every needed language. All that complicates the pipeline and development but with multilingual NLP models everything could potentially be replaced with a single multilingual NLP model supporting all the languages. Another advantage is the “zero shot” capability so you would only need a labeled dataset for one language which reduces the needed work for creating datasets for all languages in the NLP model training phase. For example, for classifying international multilingual customer feedback you could only create the labeled dataset from gathered one language feedback data and then it would work for all other languages as well.

This is mind-blowing and groundbreaking. One NLP model to rule them all?

Aapo Tanskanen

Aapo Tanskanen

Aapo Tanskanen

Aapo on erikoistunut vapauttamaan ihmiset tylsistä tietotyön tehtävistä yhdistelemällä uusien teknologioiden mahdollisuuksia. Hänen ydinosaamistaan on chatbotit, data-analytiikka, ohjelmistorobotiikka ja tiedolla johtaminen. Aapo on ollut mullistamassa jokapäiväistä työelämää kehittämällä esimerkiksi juttelevia chatbotteja ja puheella toimivia virtuaaliassistentteja työtuntien kirjaukseen ja junalippujen ostamisen automatisointiin.

Piditkö lukemastasi? Jaa se myös muille.

Rakennamme Goforella parhaillaan seuraavan sukupolven palveluita Suomen työmarkkinoille. Yhdessä Työmarkkinatorin kanssa tavoitteenamme on parantaa työn ja työntekijöiden kohtaamista. 

Kävellessäni kotiin hymyilin, vaikka oli sateinen ja pimeä joulukuun ilta ja päivä oli ollut pitkä. Mietin päivän tapahtumia. Olimme juuri testanneet uusinta käyttöliittymädemoa kuuden asiakkaan kanssa. Reaktiot ja palaute oli ollut yleisesti positiivista, yksi osallistujista kuvaili ratkaisua sanalla “vaikuttava”. Kuitenkin yksi palautteista jäi erityisesti mieleen. Yksi osallistujista sanoi, että ratkaisu ”oli jotakin, joka voisi olla jopa terapeuttinen henkilölle, joka on ollut pitkään työttömänä”. Ratkaisu, josta hän puhui, on algoritmi, hyvä sellainen.

Aina ei ole helppoa kuvailla omaa osaamista

Kun etsit uutta työpaikkaa, ei aina ole helppoa kuvailla, mitä tiedät, mitä osaat ja mitä taitoja sinulle on kertynyt – asioita, jotka tekevät sinusta arvokkaan ja hyvän työntekijän.

  • Osaamisen kuvaaminen voi olla hankalaa, jos olet juuri valmistunut koulusta ja sinulla ei vielä ole käytännön kokemusta alalta, jonne olet hakemassa.
  • Osaamisen kuvaaminen voi olla vaikeaa, jos olet ollut pitkään poissa työmarkkinoilta, esimerkiksi saman yrityksen palveluksessa yli 20 vuotta. Et ehkä ole pitänyt CV:täsi ajan tasalla. Saatat epäillä, että taitosi ovat vanhentuneet ja kuitenkin haluaisit muutosta ja uuden uran.
  • Osaamisen kuvaaminen voi olla erityisen hankalaa ja jopa raskasta, jos olet ollut pitkään työtön, olet hakenut satoihin työpaikkoihin, et ole onnistunut ja tämä on tapahtunut uudestaan ja uudestaan. Miten tuossa tilanteessa kuvata omaa osaamista, taitoja ja mikä tekee sinusta arvokkaan työnantajille?

Tekoälyratkaisu suunniteltu auttamaan

Rakennamme Goforella parhaillaan seuraavan sukupolven palveluita Suomen työmarkkinoille. Tilanteet, joita kuvasin yllä ovat vain osa niistä, joita asiakkaat saattavat kokea saapuessaan Työmarkkinatori-palveluun. Työmarkkinatorin tavoitteena on parantaa työn ja työntekijöiden kohtaamista. Työmarkkinatori on koko kansan palvelu, olet sitten koulussa, työelämässä, työtön tai vapaalla, Työmarkkinatori palvelee kaikkia. Lähtökohtana on aina henkilön tilanne, puhummekin tilannelähtöisistä palveluista.

Tekoälytiimimme on tehnyt kovasti työtä yhdessä kehitystiimin sekä UX- ja palvelumuotoilijoiden kanssa, jotta Työmarkkinatorin asiakkaiden olisi helpompi kuvata taitojaan ja osaamistaan. Jos haluaa löytää uuden työn, henkilön tulee ensin antaa jotakin työnhaulle olennaista tietoa itsestään ja aloittaa työnhakuprofiilin rakentaminen. Jo pienikin määrä tietoa riittää ja tämän tiedon avulla voimme auttaa asiakasta lisäämään osaamista kuvaavia avainsanoja omaan profiiliinsa. Avainsanat tekevät profiilista vahvemman, auttavat kuvaamaan omaa osaamista paremmin, syvemmin ja tarkemmin. Mitä paremmin henkilö on kuvannut osaamistaan, työelämähistoriaansa ja toiveitaan, sitä parempia ja osuvampia ovat palvelun tämän tiedon pohjalta ehdottamat työpaikat. Jos haluat tietää tarkemmin, miten ratkaisu rakennettiin, lue Heikin blogi.

Kaikkien algoritmien tarkoitus ei ole huijata tai ohjata harhaan. Tämä algoritmi on hyvä, terapeuttinen ja suunniteltu auttamaan ja saatavilla Työmarkkinatorilla nyt!

Minna Vänskä
Senior Service Designer

Minna Vänskä

Minna Vänskä

Minna on kokenut kansainvälisten, monialaista yhteistyötä vaativien konseptointi- ja kehitysprojektien vetäjä, kuluttajatutkimuksen ja viestinnän asiantuntija. Goforella hänen vastuullaan ovat asiakastutkimukset, käyttökokemuksen suunnittelu, konseptointi- ja palvelumuotoiluprojektit. Minnan sydäntä lähellä on asiakkaiden ja henkilökunnan osallistaminen uusien palveluiden kehittämistyöhön, työpajojen järjestäminen sekä palvelumuotoilumetodien soveltaminen asiakastutkimuksessa.

Piditkö lukemastasi? Jaa se myös muille.

ESCO on ”eurooppalainen monikielinen taito-, osaamis-, tutkinto- ja ammattiluokitusjärjestelmä”, jonka tarkoituksena on muun muassa kuvata, mitä ammatteja on olemassa ja millaisia taitoja ja osaamista eri ammateissa tarvitaan. Kun sekä työnantajan tarve että työntekijän osaaminen on määritelty kieliriippumattomasti, saadaan työpaikat ja työntekijät kohtaamaan tarvittaessa yli rajojenkin. Gofore on mukana rakentamassa Työmarkkinatoria, joka hyödyntää ESCO-luokittelua esimerkiksi työpaikkahaussa.

Vaikka ESCO-luokittelu on ajatuksena erinomainen, sen soveltaminen tavallisen tallaajan elämään on toisinaan haasteellista. Työnhakijalla voi esimerkiksi olla hyvinkin paljon monipuolista osaamista, mutta juuri tiettyä osaamista ESCO-luokitus ei ehkä tunne tai osaaminen on nimetty siten, että sen löytäminen on hankalaa. Koska erilaiset luonnollisen kielen käsittelyyn (natural language processing, NLP) perustuvat tekoälymenetelmät ovat viime aikoina yleistyneet, lähdimme tutkimaan, voisiko niiden avulla löytää helpommin ESCO-luokituksen mukaisia osaamisia. Käytännössä voisimme siis hyödyntää käyttäjän kirjoittamaa tekstiä työhistoriastaan ja osaamisestaan ja ehdottaa sen perusteella ESCO-luokituksen mukaisia osaamisia.

Yksinkertaisesti liikkeelle

Yleensä tekoälysovellusten kanssa kannattaa lähteä liikkeelle jostain mahdollisimman yksinkertaisesta ja kehitellä mutkikkaampia malleja ymmärryksen kasvaessa.

Niinpä tässäkin lähdimme liikkeelle osaamisten nimistä, muutimme ne numeerisiksi vektoreiksi ja etsimme käyttäjän antamaa syötettä lähimpänä olevia osaamisia. Tarkemmin sanottuna sanat jaettiin muutaman kirjaimen pituisiin osasiin, n-grammeihin, ja näin muodostuvan sanaston pohjalta tehtiin osaamisten nimille TFIDF-muunnos. En mene tässä sen teknisempiin yksityiskohtiin, mutta on hyvä huomata, että sanoja ei siis käsitellä sellaisinaan vaan lyhyemmissä palasissa. Asialla on sikäli merkitystä, etteivät suomen kielen taivutusmuodot vaikuta kovinkaan paljon. Myöskään satunnaisilla kirjoitusvirheillä ei ole merkitystä haun onnistumiselle.

Kokeillaanpa antaa algoritmille jokin osaamista kuvaava syöte ja katsotaan, millaisia ESCO-luokituksen mukaisia osaamisia se löytää (kolme kärkiehdotusta):

”Jakaa postia”
kirjata postia
käsitellä postia
hakea posti

Hyvältä näyttää tähän saakka. ”Posti” toki on sanana sellainen, joka ohjaa helposti oikeaan suuntaan. Kokeillaanpa jotain muuta:

”Osaan auttaa pyörätuolin käytössä”
neuvoa asiakkaita silmälasien käytössä
avustaa koneiden ja välineiden käytössä
neuvoa asiakkaita uusien laitteiden käytössä

Nyt käykin niin, että sana ”käytössä” alkaa dominoida hakua, sillä ”pyörätuoli” ei esiinny missään ESCO-osaamisessa sellaisenaan.

Lisää dataa konekäännöksellä

Haun parantaminen olisi helppoa, jos osaamiset olisi kuvattu vähän laveammin. Itse asiassa ESCO-osaamisilla on kyllä parin lauseen kuvaus, joka kertoo mitä osaaminen tarkoittaa. Tätä tietoa ESCOssa ei kuitenkaan ole suomeksi, ainoastaan englanniksi. Yli 13000 kuvaustekstin kääntäminen suomeksi olisi kuitenkin hidasta ja kallista. Ehkäpä tekoälytekniikat voisivat auttaa tässäkin? Teimme muutamia kokeiluja ja totesimme, että monien tuntema Googlen käännöspalvelu tekee nykyään suorastaan hyviä suomennoksia:

Alkuperäinen käännös Konekäännös
Negotiate with the customers the precise terms at which the service will be sold. Neuvottele asiakkaiden kanssa tarkat ehdot, joilla palvelu myydään.
Various processing methods on precious metals such as gold, silver and platinum. Eri jalometallien, kuten kullan, hopean ja platinan, käsittelymenetelmät.

No, aivan kaikki käännökset eivät ole vielä täydellisiä:

Alkuperäinen käännös Konekäännös
Put adhesive on plies by operating the cement stick on drum edge. Pane liima kerroksiin käyttämällä sementtikeppää rummun reunalla.
The joining of two pieces of metal together by deforming one or both so they fit into each other. Kahden metallikappaleen liittäminen toisiinsa muuttamalla muotoaan yksi tai molemmat siten, että ne sopivat toisiinsa.

Meidän käytössämme pienet epätarkkuudet eivät kuitenkaan haittaa, koska konekäännettyä tekstiä ei näytetä lainkaan käyttäjälle, sitä käytetään vain apuna oikeaa osaamista etsittäessä. Kokeillaanpa nyt uudelleen aiempaa tapausta, kun konekäännetyt kuvaukset ovat mukana opetusaineistossa:

”Osaan auttaa pyörätuolin käytössä”
neuvoa erikoisvälineiden käytössä päivittäisissä toimissa
antaa esteettömyysratkaisuihin liittyviä neuvoja
erikoisvälineiden käyttö päivittäisissä toimissa

Huomattavasti parempi! Nyt sana ”pyörätuoli” osataan yhdistää apuvälineisiin ja esteettömyyteen, koska se esiintyy osaamisten kuvaustekstissä.

Olisiko ammatista apua?

Edellä oleva algoritmi toimii jo aika mukavasti tapauksessa, jossa etsitään jotain nimenomaista osaamista. Jos sen sijaan syötteeksi annetaan jotain epämääräisempää, esimerkiksi viittauksia aiempaan työkokemukseen, saadaan selvästi huonompia tuloksia:

”Olen ollut kirjakaupassa harjoittelijana”
järjestää harjoitukset
ottaa osaa harjoituksiin
osallistua urheiluharjoituksiin

Koska osaamisten kuvauksissa ei puhuta kirjakaupasta, algoritmi tarraa ”harjoittelija”-sanaan ja antaa ehdotuksia sen pohjalta. Pohdimme, voisiko ongelman ratkaista unohtamalla osaamiset hetkeksi ja etsimällä sen sijaan ammatin, joka vastaisi syötettä. ESCOssa on kuhunkin ammattiin liitetty joukko osaamisia, joten ammattiin liittyvät osaamiset saamme kyllä listattua kätevästi.

Ammattipulmaa ratkoimme kahdella tavalla. Ensinnäkin ESCOssa on listattu kolmisentuhatta ammattia ja näille on olemassa parin lauseen mittainen (englanninkielinen) kuvausteksti kuten osaamisillekin. Vedimme nämäkin Googlen käännöskoneen läpi ja saimme näin aineistoa ammatin hakuun. Toiseksi, Työmarkkinatorilla on yksityiskohtaiset kuvaukset noin kuudestasadasta ammatista. Näitä datoja ei ole mielekästä yhdistää, joten teemme ammattihaun molemmille datajoukoille ja yhdistämme tulokset. Kokeillaanpa nyt hakea ammattia syötetekstin perusteella:

”Työskentelin ennen päiväkodissa, niin ja koulun keittiöllä”
keittiöapulainen
keittiöpäällikkö
lastenhoitaja

Ei hassumpaa! Ja kun huomioimme useampaan ammattiin kuuluvia osaamisia, ei haittaa niin paljon, vaikka jokin yksittäinen ammattiehdotus olisikin huono. Ammatit kuitenkin osoittavat suunnilleen, miltä kantilta osaamisia kannattaa etsiä. Kokeillaanpa nyt aiempaa esimerkkiä:

”Olen ollut kirjakaupassa harjoittelijana”
pysyä ajan tasalla viimeisimmistä kirjajulkaisuista
myydä kirjoja
suositella asiakkaille kirjoja

Paljon parempi! Puhtaasti ammatin perusteella tehtynä haku tuottaa toki joukon relevantteja osaamisia, mutta yksittäiset ammattiin liittyvät osaamiset tulevat satunnaisessa järjestyksessä. Käytännössä parhaaseen lopputulokseen päästäänkin yhdistämällä eri algoritmien tuottamia tuloksia sopivasti painottaen. Tällainen yhdistelmäalgoritmi toimii myös silloin, kun ammattia ei pystytä määrittämään; silloin haku kohdistuu suoraan osaamisten nimiin ja kuvausteksteihin.

Miten verrata suosittelualgoritmien hyvyyttä?

Ei ole itsestään selvää, miten eri algoritmien toimivuutta pitäisi vertailla. Edellä olevissa esimerkeissä ero on aika selkeä, mutta vaikkapa pienten parametrimuutosten vaikutusten arviointi on useimmiten aika vaikeaa. Jos toinen algoritmi antaa yhden erittäin hyvän osaamisehdotuksen ja toinen useamman keskinkertaisen, kumpi toimii paremmin? Entä jos erittäin hyvä ehdotus tulee vasta viidentenä? Tai viidentenätoista?

Ratkoimme vertailupulmaa tekemällä joukon testitapauksia, joissa syötetekstiin liitettiin käsityönä 10-20 relevanttia osaamista. Sen jälkeen haettiin testattavalla algoritmilla 100 osaamista ja vertailtiin, miten hyvin tavoiteosaamiset löytyivät. Ihannetilanteessa kaikki haetut osaamiset ovat heti kärkijoukossa, huonommassa tapauksessa ne tulevat listalle paljon myöhemmin tai jäävät kokonaan löytymättä.

Yksikään algoritmi ei tietenkään ole tässä mielessä täydellinen, useimmiten osa tavoitelluista osaamisista jää löytymättä. Toisaalta algoritmit tekevät usein varsin hyviäkin ehdotuksia osaamisista, joita vain ei ole tullut otettua mukaan testitapaukseen. Nämä seikat eivät kuitenkaan sinänsä haittaa, koska tavoite ei ole mitata algoritmien absoluuttista hyvyyttä vaan verrata niitä toisiinsa. Se algoritmi, joka nopeammin ja luotettavammin löytää tavoitellut osaamiset, voidaan katsoa paremmaksi.

Johtopäätökset

Edellä kuvatuilla periaatteilla toimiva ”osaamissuosittelija” on jo käytössä Työmarkkinatorilla profiilin täytössä, ja uusia sovelluskohteita löytyy koko ajan. Syöteteksti kun voi olla periaatteessa mitä vain yksittäisestä hakusanasta henkilön itsensä kirjoittamaan esittelytekstiin ja CV:stä työpaikkailmoitukseen. Kehitystyö jatkuu.

Yleisesti ottaen ratkaisussa on mielenkiintoista se, että käytetyt työkalut ja kirjastot ovat kenen tahansa ilmaiseksi ladattavissa, eikä tekniikka sinänsä ole kovin mutkikasta käyttää. Käyttökelpoisen datan löytäminen ja käyttöön saaminen on usein työläämpää kuin sopivien algoritmien kehittäminen. Ottaen huomioon, kuinka paljon tekstiä yrityksillä ja julkishallinnon toimijoilla on varastoissaan, luonnollisen kielen käsittelyn menetelmiä kannattaa varmasti hyödyntää entistä enemmän tulevaisuudessa.

Heikki Niittylä
Data Scientist

heikkiniittyla

Heikki Niittylä

Heikki on datatieteilijä, jolla on yli kahdenkymmenen vuoden kokemus ohjelmistoalasta. Hän kiinnostui tekoälyn hyödyntämismahdollisuuksista jo vuosituhannen alussa toimiessaan konenäkötutkijana Jyväskylän yliopistossa. Vuosien varrella hän on työskennellyt myös mm. ohjelmistokehittäjänä, tiiminvetäjänä ja kehityspäällikkönä.

Piditkö lukemastasi? Jaa se myös muille.

Haluatko ymmärtää paremmin asiakkaittesi ja markkinoittesi moninaisuutta? Oletko kyllästynyt eri lähteistä tuleviin faktoihin tai pitkiin ja uuvuttaviin keskiarvoistaviin tilastokäppyröihin? Olisiko nyt aika siirtyä erilaiset asiakasryhmät tunnistavaan, mutta kokonaisvaltaiseen ja asiakasdataa älykkäästi hyödyntävän vaikuttavan johtamisen aikaan?

Tämä onnistuu tilannekuvan, eli tiettyä ilmiötä kokonaisvaltaisesti kuvaavan laskennallisen ja tietopohjaisen datamallin avulla. Sen avulla päästään eroon sitkeästi organisaatioihin pesiytyneestä tavasta tehdä toisiinsa vaikuttavia päätöksiä niiden yhteisvaikutuksista tietämättä.
Asiakasdatan uudenlaisella yhdistelyllä tehtävät tilannekuvamallinnukset ovat tekoälyn hyödyntämisen yksi helpoimmin hyödynnettävistä alueista. Yksiulotteisten tai keskiarvoistavien mittareiden sijaan edistyneen analytiikan menetelmät mahdollistavat kohderyhmien tai ilmiöiden sisäisten dynamiikkojen tunnistamisen datan luokittelumenetelmien avulla.
Tilannekuva-analyysi on energisoivaa kaikille, sillä se tarjoaa jokaiselle tilannekuvakeskustelun osallistujalle datapohjaisen tarkastelun lähtökohdan, jota osallistujat täydentävät omilla näkemyksillään ja synnyttävät yhdessä ymmärrystä asiakaskunnan tilanteesta. Perinteinen analytiikka tarjoaa kylmiä lopputuloksia, mutta edistyneen analytiikan avulla tilannekuvan tuottamisen prosessissa tekoäly toimii tukiälynä. Tämän lisäksi se mahdollistaa asiantuntijaryhmän muodostamaan merkitystä heillä olevan hiljaisen tiedon avulla dialogin kautta.
Laskennalliset tulokset on mahdollista toteuttaa kevyesti ilman raskaita tietojärjestelmävaatimuksia ja tutkimusresursseja, joten se sopii hyvin myös pienille organisaatioille. Tilannekuvamalleja on helppo luoda toistuvasti kerran kehitetyn algoritmin avulla.
Asiakaskuntaan tai kohderyhmään liittyvät tilannekuvat mahdollistavat asiakaslähtöisen toimintakulttuurin synnyttämisen. Asiakasnäkymä voidaan tuoda nopeasti ja vähällä vaivalla kaikkien nähtäville. Nopeasti muuttuvassa toimintaympäristössä tilannekuvan hallinta on organisaatioille jatkuva elinehto. Kysynnän määrää, laatua ja kehittymistä on voitava seurata ja ennakoida päivä- tai viikkotasolla.
Useimmille organisaatioille jo ensimmäisen tilannekuvan näkeminen on pysäyttävä kokemus. Utuisesti hahmotettu asiakaskunta saa yhtäkkiä selkeitä piirteitä ja hahmoja, ja erilaiset kohderyhmät tunnistetaan uudella tavalla sekä heidän tarpeitaan pystytään arvioimaan jo hyvinkin alustavienkin tulosten pohjalta.

Mitkä ovat todennäköiset tulevaisuudet?

Moni olisi varmasti halukas tietämään, mitä tapahtuu tulevaisuudessa. Kristallipallo tilannekuva ei ole, mutta yhdistämällä siihen edistynyttä analytiikkaa ja systeemidynamiikkaa voidaan kyllä tehdä ennusteita siitä, mitkä ovat todennäköisiä tulevaisuuksia.
Tällöin esimerkiksi resurssien käytön suunnitteluun tai investointeihin saadaan aivan uudenlainen twisti.
Kun tuodaan markkinalle tuotteita tai pohditaan julkisten palveluiden tuottamisen palvelukapasiteettia ja -mitoitusta, päätöksiä ei tarvitse enää tehdä näppituntumalla tai peräpeiliin vilkuilemalla. Ne voidaan tehdä ennakoivien tilannekuvien avulla.
Tilannekuvia voidaan alkaa synnyttää matalalla kynnyksellä, esimerkiksi mallintamalla ilmiöitä tai tekemällä monipuolisia kyselyitä. Näitä voidaan asteittain rikastaa tiedolla ja näkemyksillä.
Olennaista on yhteistyö ja liikkeelle lähteminen. Yhteiseen tavoiteasetantaan, agendaan ja yhteisjohtamiseen opitaan vain sen tarjoamat hyödyt kokemalla – luomalla yhdessä ensimmäinen malli ja ensimmäinen kuva. Kukaan ei tiedä, mitä tuleman pitää. Tuntemattomat haasteet ratkaistaan kokeilemalla ja oppimalla.



Uskotko sinä muutokseen? Siihen, että voit muuttaa maailmaa paremmaksi ihmisille ja ympäristölle? Tutustu julkaisuumme ja asiantuntijoidemme näkemyksiin: Recoding change

Petri Takala

Petri Takala

Petri toimii Goforella johtavana konsulttina. Hänellä on laaja-alainen kokemus organisaatiosysteemien mallintamisesta ja tiedolla johtamisesta. Petrin erityisosaamista on kompleksisten systeemien johtamisjärjestelmien rakentaminen ja organisaatioiden ohjattavuutta tukevien kvantitatiivisten menetelmien kehittäminen. Petrin asiantuntemusta on hyödynnetty laajasti suomalaisen yhteiskunnan kehittämisessä, muun muassa tekoälyohjelma Aurorassa. Ennen Goforea Petri on tehnyt pitkän uran kehitysjohtajana Nokialla ja Efectessä.

Linkedin profileTwitter profile

Piditkö lukemastasi? Jaa se myös muille.

Käsi ylös, jos matkalaskujen tekeminen on työpäiväsi kohokohta. Tai jos nautit työtuntien kirjaamisesta ja matkalippujen varaamisesta työmatkalle. Näistäkin pakkopullista voi saada miellyttävän ja jopa houkuttelevan kokemuksen – tarvitaan vain ennakkoluulottomuutta ja ripaus uutta teknologiaa. Goforen ”bottiaddikti” Aapo Tanskanen kertoo, miten tekoälykkäät botit ovat tehneet työarjesta miellyttävämpää ja hauskempaa.

Tekoäly auttaa myös toimistotyöntekijää. Aapo Tanskanen on ollut mukana kehittämässä botteja, jotka automatisoivat monia rutiineja.

Tekoäly auttaa Netflixiä suosittelemaan meille sopivaa katsottavaa ja Facebookia merkitsemään kaverit valokuvissa. Robottiautokaan ei ajaisi itse ilman koneoppimista. Mutta voiko tekoälystä olla apua myös tavalliselle toimistotyöläiselle? Kyllä voi. Olemme kehittäneet kolme fiksua chatbottia, joiden avulla moni pakollinen arkiaskare hoituu vaivattomasti.

Seppo auttaa mm. työtuntien kirjaamisessa

Seppo, Granny ja Gene ovat tekstipohjaisia keskustelevia chatbotteja, jotka toimivat goforelaisten ahkerasti käyttämässä Slack-pikaviestiympäristössä. Seppo-chatbot on joukon konkari, joka kehitettiin jo vuonna 2016. Kuten moni muu menestyksekäs projekti, se sai alkunsa todellisesta tarpeesta. Meillä ei ole varsinaista keskijohtoa lainkaan, mikä ei kuitenkaan poista monia niistä tehtävistä, joita tämä porras perinteisemmässä organisaatiossa suorittaa.

Seppo toimii esimerkiksi apuna työtuntien hallinnassa. Se huomauttaa, jos työntekijä on ahertanut liiallisesti tunteja tai jos kirjaamisessa on korjattavaa. Seposta saatujen hyvien kokemusten pohjalta aloimme kehittää uusia chatbotteja auttamaan arjen rutiinitehtävissä. Gene esimerkiksi hoitaa junalippujen hankkimisen, mistä on suuri apu usealla paikkakunnalla työskenteleville työntekijöille. Granny taasen on leppoisa yleistietäjä, jolta voi kysellä yleisiä asioita yrityksestä.

”Botit ovat meillä muuttaneet todella paljon arjen työtä”, kertoo bottiaddiktiksi tunnustautuva data-analyytikko Aapo Tanskanen, joka on ollut vahvasti mukana Genen kehittämisessä. ”Niiden käyttö on esimerkiksi tuntikirjauksissa huomattavasti helpompaa ja mukavampaa kuin valikkojen napsauttelu perinteisessä käyttöliittymässä.”

Työelämän paranemisen lyhyt historia

Bottimme ovat mainio esimerkki siitä, miten teknologian avulla voidaan parantaa työelämän laatua. Tuntikirjaukset, lippuvaraukset ja matkalaskut ovat pakollinen osa työtä, mutta harva niistä tykkää – varsinkin kun ne ryöstävät suhteettoman paljon aikaa itse työltä.

Kun rutiinitehtävistä tulee sujuvia ja miellyttäviä, sillä on myönteinen vaikutus myös työssä viihtyvyyteen. ”Koska viestintämme on muutenkin vahvasti Slack-pohjaista, on hyvin pieni kynnys tehdä siellä päivän pakollisia kirjausrutiineja. Ei tarvitse availla erillisiä sovelluksia, vaan asiat voi hoitaa nopeasti saman tien. Sen lisäksi, että botit helpottavat elämää, ne tekevät rutiinitoimista tehokkaampia ja jopa hauskempia.”

Gene hoitaa junaliput

Botit ovatkin nousseet goforelaisten suosikeiksi. Esimerkiksi Genen avulla on varattu jo yli 200 junalippua, vaikka se tuli käyttöön vasta pari kuukautta sitten lomakauden alla. Ihmisiä ei kuitenkaan pakoteta bottien pariin, vaan vanhat tavat ovat edelleen rinnalla käytössä.
”Bottimme on tehty niin helposti lähestyttäviksi, että kynnys niiden käyttöön on todella matala. Ne ymmärtävät myös jo varsin hyvin luonnollista kieltä ja kehittyvät tässäkin käytön myötä jatkuvasti. Luonnollisen kielen käyttäminen tekee bottien kanssa toimimisesta jotenkin inhimillisempää”, Aapo kertoo.

Botit eivät ole kasvottomia työjuhtia, vaan kullakin niistä on omanlaisensa persoonallisuus. Varsinkin perheen tuoreinta jäsentä, Grannya, on kehitetty persoonana pisimmälle. Nimensä mukaisesti ”Mummon” luonne on lempeän mutkaton, ja se osaa kertoa vitsejä. Seppo taas on enemmän managerityyppi ja Gene napakka assistentti, joka hoitaa tehokkaasti sille annetut hommat.

”Botin persoonalliset piirteet voivat madaltaa kynnystä niiden käyttöön edelleen. Käyttäjäkokemus on erittäin suuressa osassa siinä, aletaanko botteja ylipäätään käyttää. Siksi niiden hyvä muotoilu on aivan keskeistä.”

Botti auttaa kehittymään työssä

Joskus käy niin onnellisesti, että yhdestä hyvästä asiasta seuraa toinen. Boteista on huomattu olevan iloa myös uusien työntekijöiden perehdyttämisessä. Niiltä on helppo kysyä perusasioita firmasta ja sen toimintatavoista ilman, että tarvitsee vaivata kaikissa asioissa kollegaa.
”Botti ei tietenkään korvaa henkilökohtaista perehdytystä, mutta se tukee sitä erinomaisesti ja mahdollistaa myös asioiden kertaamisen itselle sopivana aikana”, Aapo sanoo.

Granny osaa myös vitsailla

Myös pitempään talossa olleille työntekijöille on tullut uusia mahdollisuuksia itsensä kehittämiseen. ”Bottimme osaavat esimerkiksi antaa suosituksia siitä, mitä taitoja työntekijän kannattaa kehittää. Tämän taustalla on henkilökunnasta kerätyt osaamisprofiilit, joiden avulla algoritmi osaa tehdä kyseisen työntekijän profiiliin sopivat suositukset.”

Toimiston tekoälyn läpimurto lähellä

Toimivan keskustelubotin rakentamisessa tarvitaan monenlaisia taitoja. Palvelumuotoilun ja UX-kehittämisen lisäksi välttämätöntä osaamista ovat muun muassa pilven hyödyntäminen ja API-rajapintojen ymmärtäminen. Itse botin kehittämiseen tarvitaan myös luonnollisen kielen prosessointi (NLP)- ja chatbot-teknologioiden osaamista.

Aapon mukaan monet asiakkaat ovat olleet hyvin kiinnostuneita, kun ovat nähneet Goforen botit tositoimissa. ”En ole Sepon, Genen ja Grannyn kaltaisiin yrityksen sisäisessä käytössä oleviin työntekijäkokemusta parantaviin botteihin muualla törmännyt. Tässä mielessä ne ovat toistaiseksi varsin ainutlaatuisia.”

”Alalla on ollut paljon hypeä, mutta nyt on selvästi päästy tilanteeseen, jossa niistä voidaan osoittaa saatavan aivan selkeitä hyötyjä. Vahva veikkaukseni on, että syksystä 2019 tulee varsinainen bottisyksy.”

Katso videolta, kuinka Gene varaa junapaikan. Jos haluat kuulla boteista lisää, ota Aapoon yhteyttä sähköpostilla (etunimi.sukunimi@gofore.com) tai LinkedInin kautta.

Gofore Oyj

Gofore Oyj

Piditkö lukemastasi? Jaa se myös muille.