Výchozí situace
Provozní monitoring je v ČSOB zajišťován produkty HP OVO a IBM Netcool. Na počátku roku 2009 projevila banka zájem o rozšíření implementace řešení performance monitoringu a kapacitního plánování také na systémy elektronického bankovnictví ČSOB. Důvodem tohoto rozhodnutí byl zájem zákazníka o posílení stability provozu služeb elektronického bankovnictví a minimalizaci provozních výkyvů i kapacitních problémů. Dalším významným důvodem byla potřeba predikovat chování systému v případě plánovaných či neplánovaných změn (nárůst uživatelů, infrastrukturní změny apod.). Dalším záměrem bylo využít řešení pro eliminaci rizik v souvislosti s upgrade systému elektronického bankovnictví.
Řešení
Projekt implementace byl zahájen v září 2009. Celkem bylo řešení nasazeno na více než 60 serverů, které pokrývají elektronické bankovnictví ČSOB pro Českou republiku a Slovensko. Implementace zahrnovala detailní analýzu, konfiguraci řešení a tvorbu předdefinovaných reportů a výstupů i proškolení týmu na straně ČSOB. Důležitou součástí projektu bylo připravení koncepce kapacitního managementu a implementace best practices v této oblasti. Celé řešení bylo úspěšně dokončeno v červnu 2010, kdy také proběhlo školení pracovníků ČSOB, a byla předána veškerá dokumentace.
Implementované řešení bylo integrováno se stávajícím provozním monitoringem banky a pokrývá komplexně potřeby celého cyklu kapacitního managementu. A to od real-time monitoringu přes analýzu performance dat, reporting, notifikační a alertovací systém, modelování a vytváření what-if scénářů až po podporu při provádění optimalizačních opatření a změn v celé infrastruktuře elektronického bankovnictví.
Řešení implementované společností Trask solutions je postaveno na technologii TeamQuest. Společnost TeamQuest představuje lídra v oblasti kapacitního managementu. Jedním z důležitých úkolů řešení je poskytovat informace, na základě kterých je možné přesně plánovat IT kapacity, a přitom mít jistotu stabilního provozu.
ČSOB má díky tomuto řešení možnost provozovat servery v bezvýpadkovém režimu a přitom plánovat a optimalizovat běh těchto serverů tak, aby nebyly naddimenzovány a zároveň měly dostatečnou výkonovou rezervu.
TeamQuest je modulární řešení. První klíčovou komponentou je Analyzer & Reporter, který se stará o výkonnostní monitoring, tj. sledování záteže IT infrastruktury (servery, datová úložiště apod.). Reportovací část modulu se potom stará o vzniklé výstupy, které slouží pracovníkůmzodpovědným za provoz elektronického bankovnictví. Připravuje výstupy užitečné nejen pro IT odborníky, ale je schopen poskytnout také reporty hovořící jazykem byznys manažerů. Reporty je možné vytvářet předdefinované nebo vytvářet ad hoc reporty přesně podle aktuálních požadavků - například v souvislosti s neplánovaným incidentem.
Analyzer umožňuje rychlý pohled na zátěž v libovolném historickém úseku, poskytuje přehledně informace o souvislostech a umožňuje řezat multi-dimenzionální kostku obsahující nasbíraná performance data libovolným způsobem, a poskytuje tak možnost pro skutečné porozumění charakteru zátěže a všech faktorů a souvislostí, které ji ovlivňují. Řešení poskytuje snadno a přehledně informace o zátěži z různých úhlů pohledu. Naměřenou zátěž je možné vidět v grafech, dekomponovanou po jednotlivých aplikacích, uživatelích, nákladových střediscích, projektech atd.
Další komponentou je Alerter, který dovoluje integrovat provozní metriky, nastavovat prahové hodnoty a v případě jejich překročení tuto skutečnost ohlásit operátorovi, jenž pak má možnost rychle reagovat. Příkladem může být překročení nastavené kapacity paměti, využití procesoru, síťového provozu, zvýšená zátěž na storage systémech apod. Na základě alertu je možné spustit notifikační procesy (např. e-mailem) či případné skripty.
Klíčovou součástí řešení je Modeler, který dokáže připravovat nejrůznější what-if scénáře. Dává odpověď na otázky typu „co se stane, když" do serveru přidáme pamět nebo z farmy serveru dva ubereme, když se počet uživatelů znásobí apod. TeamQuest připraví matematický model, který věrně reprezentuje chování sledovaných systémů v současných podmínkách a připraví model, který přesně popisuje chování systému v nových podmínkách daných příslušným what-if scénářem.
Hlavní přínosy
Díky řešení pro kapacitní plánování TeamQuest má nyní ČSOB plnou kontrolu nad provozem systémů pro elektronické bankovnictví. Má jistotu stabilního výkonu, schopnost porozumět příčinám zátěže, pochopit chování celého systému, schopnost zachytit jakékoliv anomálie systému, porozumět jejich příčinám a získávat informace o dostupnosti všech komponent systému.
„TeamQuest nám pomohl nejen rozšířit a optimalizovat provozní monitoring, ale především umožnil přesné plánování kapacit a modelování situací, kdy je předpokládána zvýšená zátěž systému Elektronického bankovnictví, jako je období Vánoc a přelomu roku. To také významně přispělo ke zvýšení dostupnosti a stability celého systému.
Mile nás překvapil bezproblémový chod a intuitivní, uživatelsky příjemné prostředí analytických nástrojů TeamQuest řešení, usnadňující identifikaci skutečných příčin zátěže a pochopení souvislostí napříč celou infrastrukturou."
Ing. Radek Strnad (Vedoucí týmu provozu Elektronického Bankovnictví)
Velkým přínosem pro ČSOB je možnost modelování nejrůznějších scénářů. Jedním z realizovaných scénářů modelování byla situace předvánočního nakupování, kdy se očekávají velké výkonnostní vrcholy v oblasti využívání elektronického bankovnictví. ČSOB potřebovala vědět, že skupina serverů je schopna pokrýt i ten největší nápor požadavků ze strany zákazníků. Cílem modelování bylo zjistit, zda současná infrastruktura unese zátěž předpokládaného počtu uživatelů. Banka rovněž projevila zájem získat odpověď na otázku maximálního množství uživatelů, při kterém bude ještě stále možno stávající infrastrukturu elektronického bankovnictví bezpečně a stabilně provozovat. Pokud by výstupy modelování ukázaly, že infrastruktura není pro předpokládanou zátěž dostatečně dimenzovaná, byly by využity nástroje modeleru umožňující navrhnout konkrétní konfiguraci infrastruktury, odpovídající předpokládaným požadavkům.
Výstupy z tohoto modelování a jejich vysoká přesnost byly následně úspěšně potvrzeny v praktickém provozu.
Řešení dovoluje modelovat a následně realizovat opatření, která přinášejí úsporu nákladů na infrastrukturu. Tu není nutné tím pádem naddimenzovávat a navíc umožňuje plánovat údržbu takovým způsobem, který dovoluje optimálně plánovat vytížení zaměstnanců a tím snižovat náklady na personál. Eliminace výpadků a optimalizace plánovaných odstávek byl jeden z dalších významných přínosů s přímým pozitivním dopadem na business banky.
Implementované řešení poskytuje bance možnost zjišťovat slabá místa v infrastruktuře, navrhovat příslušná opatření, optimalizovat infrastrukturu a rozvíjet ji efektivním způsobem v závislosti na dynamicky se měnících byznys požadavcích. Unikátní vlastnosti celého řešení dávají možnost přistupovat ke kapacitnímu řízení a plánování skutečně komplexně a na špičkové úrovni. Proto má ČSOB zájem rozšířit toto řešení i na infrastrukturu mimo elektronické bankovnictví. V rámci elektronického bankovnictví je pak plánován další rozvoj zejména v oblastech rozšířených výstupů pro byznys uživatele a automatizace.