Aplikace Big Data Governance v praxi

Data governance je široké téma. Zabývá se jí mnoho institucí, existuje velké množství standardů, komunit a dalších teoretických zdrojů. Lze dlouze diskutovat o pravidlech architektury a funkčních dopadech do řešení. Pojďme se však zaměřit na to, co je klíčové, tedy proč a pro koho to děláme. Primárně je třeba se soustředit na výstupy pro koncové uživatele. Ti očekávají přístup k důvěryhodným informacím, kterým budou přes jejich zvyšující se komplexitu schopni správně rozumět a důvěřovat.

Data governance se zaměřením na domény metadata managementu a datové kvality

Uživatelé chtějí pracovat s daty, kterým mohou věřit a na základě kterých mohou dělat dnes a denně rozhodnutí. Schopnost rozumět datům je silně ovlivněna neustále se zvyšující komplexitou. Stále rostoucí počet zdrojových systémů, data ze sociálních sítí a Internet of Things (IoT), to je jen pár vybraných hybatelů pro implementaci big data řešení. Mnoho společností si již prošlo úvodními proof-of-concept projekty, nainstalovali si své Hadoopy a nyní hledají způsob, jak vše dostat k většímu počtu uživatelů. A do toho neustále se měnící regulatorika. Nové metodiky s sebou nesou jasně definované požadavky na práci s daty, jejich kvalitu a striktní reporting.

V této souvislosti je potřeba se se zvýšenou pozorností věnovat právě metadata managementu a datové kvalitě. Aby uživatelé svým datům rozuměli a důvěřovali, uživatelé musí mít k dispozici nástrojovou podporu pro následující funkcionality, ideálně integrované v jednotném nástroji:

  • Slovník obchodních termínů (byznys slovník)
  • Katalog reportů
  • Datový slovník
  • Moduly pro řízení a měření datové kvality

Big data přináší do této oblasti další komplexitu, zejména z pohledu metadat. Datové struktury jsou z principu věci velmi obecné, chybí logické datové modely, které by mohli analytici dat anotovat a sdílet uživatelům. Pro přístup k datům si uživatelé nevystačí s běžným SQL, ale musí se orientovat v nových dotazovacích jazycích. Přesto platí, že i v této oblasti lze uplatňovat stejné, nebo alespoň velmi podobné principy jako v oblasti „tradičního BI“.

Nástrojová podpora a její dopad do oblasti big data

V oblasti „tradičního BI“ je nástrojová podpora pro správu metadat i datovou kvalitu již dlouhodobě řešena. Je součástí komplexních softwarových balíků, které v rámci jedné rodiny produktů řeší problematiku datových skladů a reportingu „od A do Z“ (Teradata, SAS apod.). Současně jsou na trhu i další produkty třetích stran, které mají pro tyto domény vlastní řešení a současně přinášejí další přidanou hodnotu, například v oblasti sociální spolupráce a celkové integrace do jednotného uživatelského prostředí (Semanta Encyclopaedia apod.).

Otázkou je, zda lze aplikovat výše uvedené nástroje i v oblasti big data. Před jejím zodpovězením, je nutno se zamyslet nad cílovou architekturou big data prostředí tak, aby byla z pohledu uživatelské srozumitelnosti udržitelná. Nezávislým pohledem lze s odstupem pozorovat následující evoluční fáze implementace a používání big data platformy:

  • Fáze 1 – Zcela nezávislé „tradiční BI“ a big data – Toto je iniciální fáze, kdy BI tým dostane novou hračku. Proběhne instalace infrastruktury a první testy, co platforma umí. Obvykle se jedná o technologické pokusy bez reálných případů užití, které by měly nějakou oporu v požadavcích byznys uživatelů.
  • Fáze 2 – Plná technická integrace – Nastává ve chvíli, kdy se BI tým naučí s big data řešením pracovat a současně přicházejí první reálné požadavky. Objevuje se dojem, že zpracování úloh v rámci big data stacku je oproti „klasickému BI“ efektivnější a rychlejší a to vede k jeho komplexnímu zaintegrování do celého BI prostředí. V tuto chvíli ale dostává na frak udržitelnost. Technologicky vypadá řešení brilantně, ale v obsahu se po čase nikdo nevyzná. Obecně lze říct, že věci příliš komplikujeme. V této fázi též governance projekty často selhávají.
  • Fáze 3 – Pragmatický pohled – V praxi se ukazuje, že skutečně samotné zpracování dat, strukturovaných i nestrukturovaných, je efektivnější v rámci big data řešení (např. Hadoop). To dává mimo jiné možnost významně snížit, popř. eliminovat datové toky do klasického DWH. Běžní uživatelé se ale v této velké Hadoop „haldě“ informací přehrabovat nemohou, neboť se v ní nevyznají. A zde nastupuje opět „tradiční DWH“ s pevným datovým modelem. Ukazuje se totiž, že v nové době může velmi dobře zastat funkci poskytovatele přímých podkladových dat pro reporting.

Všechny výše uvedené fáze, včetně relevantních logických datových toků, jsou pro přehlednost znázorněny v následujícím digramu:

Zajímavostí na Fázi 3 ve výše uvedeném diagramu je fakt, že z pohledu architektury jsou dvě komponenty, které jsou nejblíže běžným konzumentům BI, „tradiční DWH“ a reporting. Zde přímo vidíme odpověď na otázku z úvodu této kapitoly, tedy že použitím tradičních nástrojů pro data governance v oblasti metadata managementu a datové kvality lze pokrýt významnou část výstupů i v oblasti big data. Navíc vývoj těchto nástrojů neustále probíhá s tendencí nová specifika big data oblasti plně pokrýt.

Zajímavé scénáře a jejich benefity pro byznys uživatele

Níže uvádíme dva scénáře, které mohou sloužit jako podklad pro novou strategickou iniciativu ve vaší společnosti. Není přitom rozdíl, zda je implementovat čistě v prostředí „tradičního BI“ či v prostředí big data. To jsou pouze technické faktory, které ovlivňují způsob implementace a integrace.

Metadata management

Co to je „Raketa“? Je to sportovní náčiní na tenis? Nebo si pod tímto pojmem představíte meziplanetární raketu a cestu na Měsíc? Obě odpovědi jsou správné, tedy pokud spolu mluvíme stejnou řečí.

Se stejným problémem se setkává i uživatel reportů, který jen těžko dokáže odpovědět na zdánlivě jednoduché otázky:

  • Jak je definován aktivní zákazník? Je to počet aktivních SIM karet? Počet účtů v billing systému? Počet fyzických osob a firem registrovaných v CRM systému? Do jaké míry ovlivňuje aktivita zákazníka na síti to, zda ho ještě vnímáme jako aktivního?
  • Proč mám dva reporty a každý z nich udává jiný počet aktivních zákazníků?
  • Jsou údaje o počtu zákazníků vůbec správné? Můžu jim věřit?

Uživatel při nemožnosti získat odpovědi na výše uvedené otázky rezignuje a využívá leckdy pouze omezenou sadu jemu známých reportů. Ovlivňuje to i jeho schopnost dělat zásadní rozhodnutí. Při rozporu údajů v různých reportech je nucen obrátit se na vývojáře, kteří musí provést časově náročnou analýzu, aby vysvětlili rozpory v reportech. Přitom vysvětlení je většinou jednoduché:

  • Položky se v reportech jmenují stejně, ale mají jiný význam. Řešením je centrální byznys slovník s publikovaným popisem významu termínů.
  • Položky v reportech mají sice stejný význam, ale jsou získány nebo spočítány rozdílným způsobem. Toto může vyřešit centrální datový slovník, evidující datové zdroje a jejich transformace.
  • Jaké jsou vlastně reporty, které se vztahují k aktivním zákazníkům? Centrální Report katalog, s aktuálním seznamem reportů a popisem jejich struktury je ideálním zdrojem takovéto informace.

Kvalita dat je základem pro zodpovědné rozhodování, které může zásadně ovlivnit úspěch či neúspěch našich kroků. Klíčem k dosažení této kvality je shodný dorozumívací jazyk všech participujících oddělení, pro všechny stejný význam termínů a samozřejmě snadný přístup ke zdroji informací. V tuto chvíli je tedy třeba zaměřit naši pozornost na nástrojovou podporu metadata managementu a doručit svým uživatelům následující funkcionality:

  • Jednotný BI portál, umožňující efektivně spolupracovat a sociálně interagovat, jako výkladní skříň pro všechny BI uživatele.
  • V rámci jednotného BI portálu implementovat komponenty byznys slovník, datový slovník a Report katalog.
  • Zajistit integraci těchto komponent na nativní zdroje metadat, tj. například repository datových modelů (automatické plnění datového slovníku) či reportingovou platformu (automatická synchronizace seznamu a struktury reportů).
  • Definovat procesy související s řízením životního cyklu metadat, zejména s ohledem na jejich vlastnictví a tzv. „stewardship“.

Uživatelské benefity:

  • Byznys slovník se plní definicemi významů termínů, které společně používáme.
  • Datový slovník poskytuje komplexní pohled na strukturu dat, které skladujeme a dále využíváme v reportech.
  • Report katalog obsahuje seznam a popis struktury reportů, na základě nichž se v pravidelných pracovních cyklech rozhodujeme.

Řízení datové kvality

Mohu se spolehnout na to, že report, na jehož základě chci učinit nějaké rozhodnutí, je aktuální? Že data v něm obsažená jsou správná a kompletní? Toto jsou elementární otázky, kde musí mít každý odpovědný uživatel obchodních dat jasno, aby s klidným svědomím mohl řídit svůj byznys.

Díky výstupům procesů metadata managementu již mají uživatelé možnost si rozumět. Co ale vědí o samotné kvalitě dat? Případná její neznalost je jistě pro uživatele frustrující. Řešení tohoto nedostatku důvěry je dalším klíčovým tématem, které lze formulovat následujícími požadavky:

  • Uživatel musí mít možnost sledovat aktuální i historickou kvalitu dat v reportech, které používá.
  • Definice kontrol datové kvality i prezentace výsledků jejich měření musí být jednoduchá a přehledná.
  • Celé řešení musí být integrované do jednoho nástroje, tedy uživatel musí mít možnost na jednom místě získat informace, aby svým reportům a datům rozuměl (metadata) i důvěřoval (kvalita dat).

Očekávané řešení je pak následující:

  • V rámci BI portálu doporučujeme implementovat modul pro řízení datové kvality.
  • Tento modul musí umožňovat definici byznys pravidel datové kvality a na jejich základě pak vytvářet konkrétní instance technických kontrol, ideálně automaticky. Samozřejmě se nesmí zapomínat ani na prezentaci výsledků měření, ta musí být též dostupná.
  • Technické kontroly datové kvality jsou platformě-specifické, poplatné použitému technickému řešení. Je vhodné v rámci DQ frameworku připravit sadu předdefinovaných typů kontrol a zajistit podporu jejich automatické instalace a měření na straně ostatních BI aplikací. Doporučujeme soustředit se především na takové dimenze datové kvality, jako jsou včasnost, kompletnost a přesnost dat. Ty mají největší přínos pro uživatele z pohledu dostupnosti dat pro reporting.
  • Samotnou implementaci kontrol je vhodné zahájit v předem vybrané omezené pilotní doméně (například CRM datové toky)
  • V neposlední řadě je třeba definovat proces i šablonu pro DQA (obdoba SLA v oblasti datové kvality)

Uživatelské benefity:

  • Cílem je poskytnout uživatelům jednoduchý a přehledný nástroj pro definici, měření a prezentaci výsledků reálných kontrol datové kvality.

Slovo závěrem

Je třeba mít na paměti, že data governance musí především řídit obchodní hodnotu dat zvyšováním jejich dostupnosti, využitelnosti, integrity a bezpečnosti. Tuto dostupnost, využitelnost, integritu a bezpečnost pak musí přímo vnímat samotní koncoví uživatelé dat. Cestou, jak jim tento pocit zajistit, je transparentní implementace potřebných funkcionalit v doménách metadata managementu a data quality.

Ondřej Stokláska začínal svou kariéru ve společnosti Hewlett-Packard jako konzultant a projektový manažer v oblasti enterprise software pro region EMEA. V ČSOB pak měl na starosti projekt implementace a integrace corebankingového, portálového, tiskového a BI řešení. Za Trask odřídil mimo jiné dodávku integrovaného manažerského systému (IMS) pro představenstvo Škody Auto. Ondřej působí čtvrtým rokem jako senior manager pro oblast business intelligence.

Kontaktujte nás

Na váš byznys se dokážeme podívat z jiné perspektivy. Proto můžeme přijít i na nová řešení, která dokážeme jasně popsat, rozpracovat a navrhnout jejich technickou realizaci. Originální nápad je totiž na začátku každého dobrého byznysu. Díky zkušenostem rychle poznáme, v čem chcete a potřebujete pomoci.

Domníváte se, že jsme porušili etická pravidla?
Dejte nám vědět.