facebook LinkedIN LinkedIN - follow
IT SYSTEMS 7-8/2017 , ITSM (ITIL) - Řízení IT

Měření kvality IT (3. část): Zlepšování reportů a služeb IT manažerů infrastruktury

Filip Pražák, Aleš Studený


AlvaoPři dnešních technických možnostech by se každý manažer, který zatím nesbírá data z infrastruktury, měl sám sebe ptát, proč tak ještě neučinil. A to z více důvodů. Jak zjistí, že potřebuje výkonnější servery nebo disková pole? Může se stát, že ho o zádrhelu v infrastruktuře budou informovat kolegové. Dají mu vědět, že něco nejede, že je to pomalé a je potřeba problém vyřešit. Co hůř, může se stát, že mu to oznámí jeho nadřízený a následně bude chtít čísla, grafy, vysvětlení. Co mu předloží? Jak mu dokáže, že je právě tato služba dlouhodobě dostupná?


Sestava reportů mapující stav a trendy v infrastruktuře je tedy nutností. S patřičnou výbavou IT manažer jednodušeji obhájí svou pozici, bude vypadat profesionálněji a navíc může argumentovat s čísly a grafy. Může ukázat, že ta nebo ta služba je často nedostupná, díky nedostatečně výkonnému serveru, na kterém tato služba běží. Když pak bude potřebovat budget na zlepšení těchto chyb, bude se mu to s čísly mnohem lépe obhajovat než bez nich. Na co by dál neměl manažer infrastruktury zapomínat, se dozvíte níže.

Viditelnost skrze infrastrukturu

Vaši IT infrastrukturu si můžete představit jako centrální nervový systém lidského těla. Při jeho narušení dochází k ochromení části, či celého člověka, podle závažnosti jeho porušení. Pokud něco naruší centrální nervový systém vaší infrastruktury, znamená to pro firmu stejně vážné dopady. Výpadek často ochromí nejen jednoho, ale celou řadu koncových uživatelů. Díky úplné viditelnosti všech hardwarových a softwarových prostředků můžete sledovat zdraví sítě.

Zdraví sítě musí být neustále kontrolováno. Na obrázku č. 1 můžete vidět graf, kdy byl server nahoře – Uptime. Zeleně lze vidět, že byl server A nahoře skoro stoprocentně. Červená křivka ukazuje server B a jeho nezdravé chování. Můžeme tak vidět, že každý čtvrtek odpoledne z posledních 100 dní měl server B uptime pouze v 50 procentech. Tyto trendy je potřeba sledovat. Pomocí trendů můžete sledovat vaše servery, firewally, dostupnost páteřní sítě, atd. Díky nim můžete předcházet budoucím potížím, ještě než k nim dojde. 

Obr. 1: Uptime posledních 100 dnů
Obr. 1: Uptime posledních 100 dnů


Předvídatelnost

Prohlížení historických informací umožňuje sledovat trendy a informace o infrastruktuře. Čím dříve začnete s ukládáním dat z vaší infrastruktury, tím líp. Často zjistíte, že se výpadky serverů opakují ve stejných časových obdobích, viz obrázek č. 1. Můžeme si ukázat jednoduchý příklad. Na každé vysoké škole se studenti registrují na předměty. Zápisy do předmětů se spouští v přesnou hodinu a minutu. Jelikož je kapacita předmětů omezená a všichni studenti začnou hrát souboj s časem, je s tímto okamžikem spojený zvýšený provoz na síti. Tato situace se opakuje každý semestr. Dva tisíce studentů zběsile obnovujících svůj prohlížeč v honbě za nejlepší registrací, to je každoročně největší nápor, který server zažije. Jeho výkon v ten okamžik musí být násobně větší než v běžném provozu. Pokud budete tyto situace správně předpovídat a učit se z minulosti, naučíte se mít ve správný moment posílené správné servery nebo využijete cloudové služby, či úplně jinou logiku. Například studentům dáte možnost obnovit stránku pouze 10x za sebou, jinak budou muset chvíli čekat, apod., to už je jenom na vás.

Na obrázku č. 2 pak můžeme vidět využití šířky pásma z roku 2017, ze kterého lze vidět, že v měsíci červnu byl provoz největší za celý rok.

Obr. 2: Využití šířky pásma v roce 2017
Obr. 2: Využití šířky pásma v roce 2017

Na obrázku č. 3 je přiblížen provoz z června pro bližší analýzu. Z obrázku lze vyčíst, že největší provoz byl první dva týdny, poté začal klesat a přibližovat se průměrným číslům.

Obr. 3: Průměrné využití šířky pásma po jednotlivých týdnech
Obr. 3: Průměrné využití šířky pásma po jednotlivých týdnech


Nezůstávejte za svou konkurencí

Pokud jste zjistili, že některé části infrastruktury začínají být zastaralé, inovujte je. Nečekejte do posledního vydechnutí komponenty. Nemůžete si dovolit zůstávat v inovování infrastruktury za konkurencí. Je důležité zůstat konkurenceschopný. Nenechte si ujet vlak. Stanovte si cíle, které je potřeba dosáhnout, abyste výkon dostali na požadovanou úroveň.

Začněte monitorovací nástroje používat naplno a ne pouze tehdy, když něco přestane fungovat. Zkuste již dnes proaktivně např. pohledem do minulosti zjistit, zdali bude výkon vaší infrastruktury v příštím roce dostatečný. Jaký je trend v jejím využívání? Zkusili jste si někdy vypočítat MTTR (Mean time to repair), tedy střední dobu potřebnou na opravení selhané komponenty nebo zařízení a navrácení do produkčního stavu? Nebo si pomocí vašich nástrojů vypočítali střední dobu poruchy MTBF (Mean time between failures), či MTTF (Mean time to failure)? Na obrázku č. 4 je představení těchto pojmů pro lepší pochopení.

Vaše proaktivita se vám jistě v budoucnu vrátí a navíc vám pomůže získat větší přehled o vaší infrastruktuře. 

Obr. 4: Dostupnost služeb popsaná skrze MTTR, MTTF, MTBF
Obr. 4: Dostupnost služeb popsaná skrze MTTR, MTTF, MTBF


Pravidelná kontrola

Jestli máte místo, kde můžete sledovat plnění vašich KPI, např. service desk, budete o krok napřed oproti koncovým uživatelům. Protože pokud jsou vaše SLA správně nastavena, tak je dost pravděpodobné, že chybu vyřešíte dříve, než se dotkne většiny koncových uživatelů.

Monitoringem můžete předpokládat výpadky, můžete živě sledovat síť. Sledujete jím ale všechno? Vaši uživatelé přece jenom najdou skulinku, kterou monitoringem nesledujete. A právě ti vás budou kontaktovat jako první, když něco fungovat nebude. Nezapomínejte tedy, že i oni vás posouvají dopředu. Proto když budete zavádět KPI/SLA do vaší infrastruktury, dejte si na to čas a diskutujte s businessem o tom, co je pro něj důležité a co má na něj největší dopad.

KPI pro představu:

  • Procento výpadků (nedostupnost) v důsledku provádění plánovaných změn ve vztahu k provozním hodinám
  • Procento (kritických) komponent infrastruktury s automatickým sledováním dostupnosti
  • Procento kritických obchodních procesů, na které se nevztahuje definovaný plán dostupnosti služeb
  • Počet poruch IT služeb v takzvaných kritických časech
  • Bylo splněno procento dostupnosti dohod o úrovni služeb (SLA)?

Zavedení OLA

Ač se to může zdát jako španělský pozdrav, OLA je název pro Operational – Level Agreement. Je to dohoda podobně jako SLA, na kterou se ale často zapomíná. Přesněji je OLA dohoda o úrovni poskytovaných služeb mezi jednotlivými funkčními IT celky organizace.

Jak OLA začít používat? Zkuste definovat např. první reakci nebo čas do vyřešení na požadavku, i když ho posíláte jen interně mezi jednotlivými odděleními. Vyhnete se tak nepříjemnostem, kdy vytvoříte např. podřazený požadavek na jiné oddělení, než je vaše, a pak čekáte na jeho vyřešení, přitom požadavek nikdo zatím neřeší. Buďte inovativní a nebojte se dát OLA na jednotlivé týmy, spolupráce tak bude mnohem efektivnější. Navíc získáte další data o rychlosti řešení požadavků v jednotlivých týmech, na které pak můžete navazovat další logiku a dále s tím pracovat.

Zapojte se do zlepšování infrastruktury

Viditelnost skrze infrastrukturu oceníte jak vy, tak její administrátoři. Je to jedna z klíčových vlastností, kterou podle statistik administrátoři vyžadují. Chtějí vědět, co se v infrastruktuře děje. Ukládat a sledovat velké množství dat se může zdát zbytečné. Pravá hodnota těchto dat se však ukáže, jakmile budete potřebovat vyřešit oříšek v podobě zapeklitého problému v infrastruktuře.

Proaktivita je ve vaší infrastruktuře klíčová. Je lepší proaktivně zvyšovat kvalitu služeb, než reaktivně řešit problémy až v okamžiku nedostupnosti služeb. Taková situace už může stát business nemalé peníze. Sledujte trendy ve vaší infrastruktuře a zkuste předpovídat její vývoj.

Zavedení správných SLA/OLA na jednotlivé služby je pro business klíčové. Diskutujte prvně s vedením, co je, bude pro business nejvíce kritické, a následně vytvořte vhodná opatření v podobě KPI, které budete sledovat a dávat na ně SLA/OLA.

Nic se nesmí přehánět, proto si vytvářejte SLA/OLA střízlivě, zachovejte přitom zdravý selský rozum. Nejjednodušší bude zkusit se vžít do lidí, kterých se KPI budou přímo dotýkat, a následně navrhnout jednotlivé indikátory k měření.

Nyní již víte, na co se máte zaměřit. To, v jaké podobě (kompletní report, pouze čísla nebo grafy) budete dávat výsledky vašemu nadřízenému, je již na každém z vás. Snad vám tento díl ukázal, čemu se v infrastruktuře dá věnovat, a povede to k neustálému zlepšování vašich služeb.

Filip Pražák, ALVAO
Filip Pražák
Autor článku je konzultantem ve společnosti ALVAO a současně studentem oboru Service, Science, Management and Engineering na Masarykově univerzitě.
Ing. Aleš Studený, ALVAO
Ing. Aleš Studený
Autor článku je ředitelem služeb ve společnosti ALVAO. Jeho tým konzultantů zlepšuje IT v českých i zahraničních firmách. Je aktivní v publikaci odborných článků na téma řízení IT (ITSM) a tuto problematiku přednáší na vysokých školách.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.