Data Vault 2.0 – tietovarastojen villin lännen ”pieni suuri” metodi?

Tietovaraston rakentaminen on iso hanke. Monet tietovarastoprojektit paisuvat, ylittävät budjettinsa ja lopulta jäävät vähälle käytölle investointeihin nähden. Usein puhutaankin tiedon kaatopaikoista. Kuulostaa hälytyskellojen pärinältä, kun yksi tietojohtamisen trendi on ”massa data” (engl. Big data). Kriittisimmät äänet varoittelevatkin, että organisaatio ei kykene hyödyntämään Big Dataa, ennen kuin se oppii käyttämään ja analysoimaan tietojansa operatiivisen toiminnan päätöksenteossa.

Data Vault 2.0 on Dan Linstedtin mukaan kehitetty korjaamaan tietovarastoihin liittyviä ongelmia. Data Vault 2.0 pyrkii tuomaan seuraavia liiketoiminnan hyötyjä:

  • hallittu itsepalvelu liiketoimintatiedon hallinnassa
  • automatisointi ja taustajärjestelmien itsestään toipuvat systeemit
  • dynaaminen tietovaraston rakenteen sopeutus
  • nopeat toimitussyklit (kaksi tai kolme viikkoa)
  • pienempi ylläpidon ja hallinnan kokonaiskustannus.

Data Vault on tietovaraston ja liiketoimintatiedon hallinnan (engl. Business Intelligence) järjestelmä, joka koostuu kolmesta keskeisestä komponentista: Data Vault -malli, -metodologia ja -systeemiarkkitehtuuri. Data Vault -malli perustuu kolmen perusmallinnuskäsitteen ympärille. Aluksi organisaatioiden perustietovarannoista pyritään löytämään yleensä muuttumattomat liiketoiminnan avaimet kuten asiakkaan tunnisteet ja tuotekoodit. Näitä kutsutaan Hubeiksi. Sitten tunnistetaan näiden väliset yhteydet, eli Linkit. Linkkejä voisivat olla esimerkiksi asiakkaiden ostamista tuotteista lähetettävät laskut. Sekä hubeihin että linkkeihin voidaan liittää myös muuta tietoa ja erityisesti historiatietoa. Tämä data kuvataan Satelliittien avulla. Data Vault -malliin perustuvien tietovarastojen ominaisuus onkin, että ne sisältävät datan sillä tarkkuudella kuin lähdejärjestelmissä ja lisäksi myös historiatiedon. Kuvassa 1. on illustroitu Data Vault -rakennetta. Vaikka edellä mainittuihin mallinnuskäsitteisiin liittyy useita sääntöjä ja parhaita käytänteitä, on mielestäni mallinnuksen vahvuus juuri tässä molekyylimäisesti laajentuvassa rakenteessa, jota voidaan kehittää iteratiivisesti tarpeiden mukaan. Data Vault -menetelmän havaitut edut liittyvät muutosjoustavuuteen ja tietovaraston laajennettavuuteen.

Kuva 1. Data Vault -mallin illustrointi
Kuva 1. Data Vault -mallin illustrointi

Siinä missä Data Vault 1.0 sisälsi tietovaraston mallin, tuo Data Vault 2.0 tietovaraston kehittämismenetelmät, jotka perustuvat CMMI 5 -tason parhaisiin käytänteisiin. Tietovarastojen kehittämisessä suurin sudenkuoppa onkin ollut vahvojen menetelmien puuttuminen. Data Vault 2.0 metodin kehittäjän, Dan Linstedtin, mukaan tietovaraston rakentaminen on ketterän kehittämisen ohjelmistoprojekti. Toisin sanoen, tietovarastoa ei tulisi lähteä kehittämään siten, että ensin hankitaan liiketoimintatiedon hallinnan- tai raportoinnin työkalut ja sitten mietitään, mihin niitä voitaisiin käyttää, vaan liiketoimintatarpeiden tunnistamisen jälkeen tietovaraston rakenteet ja raportit tuotetaan iteratiivisesti ja asiakkaan tarpeita jatkuvasti kuunnellen. Kokonaisarkkitehtuuriselvityksissä olemme usein huomanneet, että organisaatiot ovat hankkineet useitakin liiketoimintatiedon hallinnan työkaluja, mutta niiden käyttötarkoitus on jäänyt epäselväksi ja toteutus vaikeakäyttöiseksi. Näiden työkalujen hankinnassa kannattaa lähteä liikkeelle mitoitettuna siihen, mitä organisaatio ensimmäisenä tietovarastoltaan tarvitsee. Myös tietovarastojen ketterässä kehittämisessä sisällön oikea rajaus on kaikki kaikessa!

Tietovarastojen tarkoitus on olla organisaation kaiken datan tallennuspaikka. Big data tuo tähän jo entisestäänkin haasteelliseen tavoitteeseen uuden tason. Dan Linstedt on todennut, että Big data on tietovarastoinnin looginen jatko. Data Vault 2.0 ei ratkaise itsessään kaikkea tietovarastoinnin tai Big dataan liittyviä haasteita. Julkishallinnossa erityishaasteita tuottaa mm. se, että kaikelle henkilötietojen hyödyntämiselle tulee aina olla lainmukainen peruste, esim. kansalaisen antama suostumus. Henkilötietoja koskevissa hankkeissa tietovarasto- tai Big data -ratkaisuja ei voida siis tarkastella vain teknisenä haasteena, vaan on syytä tuntea lainsäädäntöä ja suunnitella tietovaraston hyödyntäminen, organisaation vastuut ja tietosuoja siten, että lainmukaisuus täyttyy. Tarkemmin näistä edellytyksistä voi lukea mm. Tietosuojavaltuutetun toimiston sivuilta.

Onkin tärkeätä valita oikea kumppani suunnittelemaan niin tietovarastoratkaisuja kuin Big data -hankkeita. Data Vault 2.0 -menetelmää ei voi kuka tahansa ottaa käyttöönsä, vaan soveltajan tulee olla sertifioitu Data Vault 2.0 -harjoittaja, jolla on käytännön kokemusta. Meillä Goforella sertifioitu Data Vault 2.0 -asiantuntija on allekirjoittaneen lisäksi Mika Varjus.