Allt sem þú þarft að vita um meðhöndlun gagna.

Gagna-Magnús á áhugaverða bók sem kallast DAMA-DMBOK (útgáfa 2). DAMA stendur fyrir "the Data Management Association International" sem eru samtökin sem gefa út bókina og DMBOK er hvorki meira né minna en "Data Managment Body Of Knowledge" sem lauslega gæti útlagst sem "allt sem þú þarft að vita um meðhöndlun gagna".

Bókin er tæplega 600 blaðsíður af kjarnmikilli þekkingu sem er skipt upp í 17 kafla og hefst heiti flestra þeirra á orðinu Data. Hér verður rennt lauslega yfir bókina í þeim tilgangi að sýna hversu víðfeðmt viðfangsefnið er, og í leiðinni velta fyrir sér þýðingu hugtakanna sem fram eru borin.

Data Management er inntak fyrsta kafla, af sumum kallað gagnastjórnun en það verður ekki gert hér. Réttari þýðing gæti verið meðhöndlun gagna. DMBOK lýsir meðhöndlun gagna sem þróun, framkvæmd og umsjón með áætlunum, stefnum, og aðferðum sem miðla, stýra, verja og auka virði gagna og upplýsinga yfir líftíma þeirra. Ansi víðfeðm skilgreining, enda eru þau hlutverk sem koma að meðhöndlun gagna fjölbreytt, í raun allir sérfræðingar og stjórnendur sem koma nálægt gögnum. Data Management/meðhöndlun gagna er því regnhlífarhugtak sem segir allt og ekki neitt. DAMA hefur teiknað mynd sem á að endurspegla inntakið.

DMBOK 2 þróað hjól

Næst er talið öruggast að hafa orð á siðfræði við meðhöndlun gagna, Data Handling Ethics. Enda eru freistingarnar margvíslegar þegar kemur að notkun og misnotkun gagna. Siðfræði gagnameðhöndlunar snýst um áhrif á fólk, gæði og réttleiki gagna hefur áhrif á einstaklinga.  Hún snýst líka um að koma í veg fyrir mögulega misnotkun sem myndi hafa neikvæð áhrif á einstaklinga og/eða fyrirtæki. Og loks lýtur hún að virði gagna og hverjir mega hafa fjárhagslega hag af gögnum.

Data Governance er innihald þriðja kafla og nú er upplagt að tala um gagnastjórnun. Undir gagnastjórnun fellur (samkvæmt DMBOK) að skilgreina gagnastefnu og gagnastjórnunarstefnu (það er aldrei nóg af stefnum), setja og framfylgja reglum um meðhöndlun gagna og lýsigagna (Metadata), setja og framfylgja stöðlum um gagnahögun og gagnagæði, að vakta, endurskoða og leiðrétta gögn, tryggja hlítni við regluverk um meðhöndlun gagna, meðhöndla frávik á öllu sem lýtur að meðhöndlun gagna, leiða verkefni um bætta meðhöndlun gagna og loks að skilgreina aðferðir til að virðismeta gögn.

Á myndinni hér að ofan sést hvernig Data Governance og tengd atriði umlykja alla aðra þætti Data Management. DAMA hefur líka teiknað aðra mynd sem er kannski auðveldara að tengja við framhaldið á þessari umfjöllun. Á þeirri mynd er Data Governance miðjan í Data Management hring og 10 geirar þar í kring fyrir meginatriði Data Management, við sjáum (aðra) mynd.

DMBOK 2 hjól

Og þá er ekkert að gera nema innbyrða þessar kökusneiðar, fyrst er boðið upp á gagnahögun eða Data Architecture. Ein skilgreining getur verið "að raða einingum saman með skipulögðum hætti í þeim tilgangi að besta virkni, afköst, gerleika, kostnað og fagurfræði heildarinnar". Nánar tiltekið í þessu samhengi að hanna líkön og flæði í mismunandi upplausn, að tryggja að útfærslur séu í samræmi við högun, og loks að mannlegir þættir eins og samvinna, hugarfar og þekking styðji við góða högun á því umhverfi sem meðhöndlun gagna fer fram í.

Í kafla 5 sést loks til eiginlegra gagna þar sem fjallað er um Data Modeling and Design, köllum það gagnalíkön og gagnahönnun. Samkvæmt DAMA felst í þessu að uppgötva og greina gagnaþarfir, og setja þær fram formlega og miðla þeim í gagnalíkani. Þetta er ítrunarferli og afurðir geta verið líkön af heildarhugmynd, rökræn líkön (án tillits til útfærslu), og útfærslulíkön. Algengasta geymsluform gagna eru venslaðir gagnagrunnar og er þeim meðal annars lýst með venslaritum, Entity Relational Diagrams.

Einhvers staðar þarf að geyma gögnin og um það fjallar kaflinn Data Storage And Operations, eða geymsla og rekstur gagna. Þetta er grundvallarábyrgð þess sem er titlaður DBA, Database Administrator eða gagnagrunnsstjóri. Gagnagrunnsstjóri sinnir mikilvægum verkefnum í meðhöndlun gagna.

Annað hlutverk sem gagnagrunnsstjóri þarf að koma að er gagnaöryggi, Data Security sem er næsta umfjöllunarefni. En hér falla flestir í þá gildru að ætla gagnagrunnsstjóranum einum að finna út úr verkefninu, sem er yfirleitt ekki nóg, þar sem gagnaöryggi snýst um að skilgreina, útfæra, þróa og framfylgja öryggisreglum og ferlum sem tryggja sannreyningu, heimildir, aðgengi og rakningu við notkun og viðhald gagna. Það er því mikilvægt að gagnagrunnsstjóri fái stuðning frá aðila sem þekkir uppbyggingu starfsemi og þau regluverk sem kunna að eiga við hana.

Kafli 8 fjallar um viðfangsefni sem stendur Gagna-Magnúsi nær. Data Integration And Interoperability sem má kalla gagnasamþættingu og samhæfingu. Sem er í stuttu máli það verkefni að færa gögn og umbreyta þeim. Í þessu samhengi er fjallað um ETL og ELT, Extract, Transform og Load, að nálgast gögn, umbreyta þeim og vista þau á nýju formi og á nýjum stað. Nýtísku starfsheiti þeirra sem sinna þessu er Data Engineer.

Eins og í öllum góðum ævintýrum þarf að vera vandræðagripur af einhverju tagi í umfjöllun um meðhöndlun gagna. Hann gæti kallast t.d. óformuð gögn eða skjöl. Í kaflanum Document and Content Management er fjallað um þessa tegund gagna, sem er gjarnan tiltölulega stjórnlaus afurð nútíma fyrirtækja. Þessu verkefni er lýst á mjög opinn hátt sem skipulagningu, útfærslu og eftirfylgni með lífsferilstjórnun gagna og upplýsinga sem eru af hvaða tegund sem er og á hvaða miðli sem er. Ekki alveg skýrt kannski, en hér er skörun við viðfangsefnið skjalastjórnun, sem kemur ekki frekar við sögu hér.

Gögnum er gert mishátt undir höfði eftir eðli og tilgangi þeirra. Eftirsótt gögn í öllum rekstri eru vel útfærð og traust aðalgögn og tilvísunargögn. Gagna-Magnús hefur reyndar aldrei heyrt þessar þýðingar notaðar en hefur ekki betri tillögur fyrir hugtökin Reference and Master Data, sem eru einmitt viðfangsefni tíunda kafla. Því er lýst svona; meðhöndlun sameiginlegra gagna til að mæta rekstrarþörfum, draga úr áhættu vegna ofaukinna/óþarfa gagna, tryggja meiri gæði og draga úr kostnaði við samþættingu gagna. En hver er munurinn á aðalgögnum og tilvísunargögnum? Ein skilgreining byggir á því að tilvísunargögn séu ein þriggja tegunda aðalgagna. Það eru þá uppflettitöflur, gögn sem eru eingöngu notuð til að skýra innihald annarra gagna eða tengja þau við upplýsingar sem eru á forræði þriðja aðila. Hinum tveimur flokkunum sem falla undir aðalgögn er þá lýst sem gögnum sem lýsa uppbyggingu fyrirtækis, til dæmis bókhaldslyklar og skipulag, og hins vegar gögnum sem eru nauðsynleg til að lýsa öllum viðskiptum sem eiga sér stað og flokka þau, til dæmis með upplýsingum um viðskiptavini, vörur, birgja og svo framvegis. Einfalt, ekki satt!

Næst virðum við fyrir okkur toppinn á ísjakanum, það sem flestir tengja við gögn og meðhöndlun þeirra, nefnilega, Data Warehousing and Business Intelligence, sem útleggst sem vöruhús gagna og viðskiptagreind. Í því felst að útbúa og framreiða gögn sem henta til greiningar og ákvarðanatöku og stuðningur við starfsmenn sem útbúa skýrslur, fyrirspurnir og greiningar. Þetta er víðfeðmt svið sem á sér nokkuð langa sögu. Aðferðir hafa breyst í takt við umfang og eðli gagna sem og hraða þróun í vélbúnaði og innviðum. Ekki er hjá því komist að nefna Inmon og Kimball sem standa fyrir sitthvorn skólann í högun vöruhúsagagna, Inmon vill hafa almenna gagnahögun sem býður upp á svör við áður óspurðum spurningum, Kimball vill vita spurningarnar fyrirfram og sérsníða gögnin að þeim. Ofeinföldun að sjálfsögðu, en eitthvað í áttina að sannleikanum.

Og þá er komið að hulduheimi lýsigagna, Metadata Management. Þetta er eitt þeirra hugtaka sem gagnafólki er tíðrætt um án þess endilega að hafa sameiginlega skilgreiningu á hugtakinu. Enda er þetta mjög opið viðfangsefni. Lýsigögnum er lýst sem gögnum um gögn og í DMBOK er viðfangsefninu lýst svona; skipulagning, útfærsla og umsýsla sem tryggi aðgengi að hágæða samþættum lýsigögnum. Hljómar kannski aðeins eins og að elta skottið á sér. Hvernig er þá hægt að skilgreina hvað átt er við? Viðskiptaleg lýsigögn fjalla um innihald í töflum, gagnalíkön, reglur um gagnagæði, uppfærslutíðni, ábyrgðaraðila, öryggiskröfur, þekkt vandamál, notkunarleiðbeiningar og margt fleira. Tæknileg lýsigögn lýsa útfærslulaginu, staðsetningu taflna, dálkupplýsingum, aðgangsheimildum, reglum skilgreindum í gagnagrunni, upplýsingum um ETL keyrslur, afritunar og endurheimtar reglum, og mörgu öðru. Rekstrarleg lýsigögn taka á keyrsluáætlunum, niðurstöðusögu keyrslna, villulistum, notkunarskýrslum, aflagningu og eyðingu gagna, tæknilegum hlutverkum og mörgu fleira. Þannig að það er af nógu að taka og því eðlilegt að sjá ekki skóginn fyrir trjánum, gera of lítið, gera of mikið, eða bara hreinlega fallast hendur. En lýsigögn eru undirstaðan fyrir alla markvissa gagnastjórnun, miðlun upplýsinga um gögn, eftirlit með gæðum og öllu því góða sem við viljum gögnunum okkar. Það er því mikilvægt að takast á við lýsigögn og finna Gullbrár útfærsluna, ekki of mikið og ekki of lítið, heldur alveg mátulegt.

Þá er komið að síðustu sneiðinni á mynd tvö, stjórnun gagnagæða, eða Data Quality Management. Að stjórna gæðum gagna snýst um að tryggja að gögn séu hæf til notkunar og uppfylli þarfir notenda, svolítið eins og heilbrigðiseftirlit í matvælaframleiðslu. Nauðsynlegt er að skilgreina hvenær tiltekin gögn teljast góð, hafa eftirlit með því að þau séu góð, hafa ferli til að bregðast við ef þau eru ekki góð og hafa góða yfirsýn yfir ástandi gagna. Allt er þetta lýsigagnadrifið og kallar á samspil margra og ólíkra aðila innan fyrirtækja. En ávinningurinn getur verið mikill ef vel tekst til að tryggja gæði gagna.

Þá er kakan búin og komið kafla 14. Hann fjallar um viðfangsefni sem ekki voru á hvers manns vörum þegar kakan var bökuð, Big Data and Data Science, stór gögn og gagnavísindi. Nú er upplagt að vitna í Terry Hanold hjá Amazon sem (samkvæmt DAMA) sagði að gögn væru "stafrænn skuggi handahófskenndra atburða skráðra án áhuga", eða "The digital shadow of haphazard events indifferently recorded". Ágætis lýsing á því hvernig stór gögn verða til þegar byrjað er að safna öllu sem til fellur úr kerfum, upplýsingum um atburði af öllu tagi, án þess að vita fyrirfram til hvers. Gagnavísindi eru oft tengd við stór gögn, enda hafa seinni tíma framfarir á því sviði byggst á greiningum á umfangsmiklum gagnasöfnum á öflugum vélbúnaði. Gagnavísindi eru samt ekki einskorðuð við stór gögn og má segja að þau snúist um að sameina gagna/forritunarþekkingu, þekkingu á viðfangsefninu og tölfræðiþekkingu til að ná gagnlegum niðurstöðum úr gögnum sem án þessara þriggja stoða væru illskiljanleg.

Niðurstöður eru ólíkar á milli menningarsvæða en svo virðist sem 60-90% ökumanna telji að þeir séu yfir meðallagi góðir ökumenn. Er hægt að mæla hversu vel er staðið að meðhöndlun gagna? Næsti kafli snýst um að meta þroska gagnameðhöndlunar, Data Management Maturity Assessment, ekki alveg sami hluturinn en væntanlega ágætis vísbending um stöðu máli. Þetta er aðferðafræði sem snýst um að gefa öllum þáttum gagnameðhöndlunar einkunn á bilinu 0 (engin geta) til 5 (hámarkað). Þetta er ágæt leið til að meta núverandi stöðu, en ekki síður til að ákveða að hverju á að stefna og hvað slík vegferð muni fela í sér.

Þá er það titlakapallinn, hvað þarf marga stjóra til að skipta um gagnaperu? Eða, Data Management Organization and Role Expectations, sem gæti verið skipulag gagnameðhöndlunarstarfsemi og væntingar til hlutverka. DMBOK er litað af upprunalandinu, landi stórfyrirtækja með flókna innviði og innanhúss pólitík. Ein leið til að nálgast verkefnið er að ákveða fyrst hvað á að gera, finna svo einstaklinga í verkefnið og loks smella á þá titlum og staðsetningum í skipuriti eftir eðli verkefna. Það fer svo eftir því hvað viðfangsefnið er flókið, fyrirtækið er stórt eða fjölþætt og hvað liggur mikið á, hversu margar hendur þarf í verkefnið. Hér er þumalputtaregla sem Gagna-Magnús slengir gjarnan fram í kokteilboðum, tíundi hver starfsmaður þarf að hafa vinnu með gögn sem aðalstarfa, en þetta er að sjálfsögðu mjög misjafnt eftir eðli fyrirtækja.

Og þá er það loksins síðasti kaflinn, Data Management and Organizational Change Management, eða meðhöndlun gagna og breytingastjórnun. Þetta er áhugaverð lesning, tiltölulega almenns eðlis, um breytingastjórnun. Án þess að fara á dýpið þá eru hér nokkrir punktar. Rekstrareiningar breytast ekki, fólk breytist. Fólk stendur ekki í vegi fyrir breytingum, það er á móti því að vera breytt. Það er ástæða fyrir því að hlutirnir eru eins og þeir eru. Ef það er ekki þrýst á breytingar mun líklega ekkert breytast. Breytingar væru auðveldar ef fólk þvældist ekki fyrir.

Og þá er komið að orði númer tvöþúsund! Takk fyrir samfylgdina og góðar stundir.