facebook LinkedIN LinkedIN - follow
IT SYSTEMS 10/2004

Information lifecycle management

Ing. Radomír Vacek, CSc.


Během několika posledních let se začal v oblasti informačních technologií používat termín information lifecycle management (ILM) a frekvence jeho výskytu v odborných publikacích a na webových stránkách nejvýznamnějších světových výrobců paměťových systémů neustále roste. O co se jedná? Tento termín lze do českého jazyka přeložit jako řízení a správa životního cyklu informace. Jak uvedl v červnu tohoto roku Fred Moore, prezident Horison Information Strategies, je nutné položit si otázku, co se děje, když jednou vygenerovaná data uložená v nějakém informačním systému stárnou. Jakým způsobem souvisí s životem informace management dat a jakým způsobem životní cyklus informace ovlivňuje jeho efektivitu?


Zkušenost ukazuje, že pro většinu dat uložených v nějakém systému klesá postupně s časem počet požadavků na přístup k těmto datům. Jakým způsobem se přitom mění hodnota uložených dat? Klesá, zůstává stejná, nebo dokonce roste? Kdy lze jednotlivá data ze systému nenávratně vymazat? Je zřejmé, že odpověď na tyto otázky souvisí s konkrétním charakterem jednotlivých dat. Nicméně jak data stárnou, obecně klesá počet přístupů k nim. Klesají rovněž požadavky na rychlost tohoto přístupu a mění se požadavky na řízení a správu uložených dat. Vzhledem k neustálému celosvětovému nárůstu objemu ukládaných dat (viz tabulka), se kterým souvisí i rostoucí požadavky na jejich uložení, zabezpečení, dostupnost a management, a vzhledem k neustále rostoucí době, po kterou požadujeme, abychom měli data dostupná, rostou i náklady. Tento trend souvisí nejen s neustále se rozšiřující oblastí podnikání v jednotlivých oborech, ale také s rostoucími požadavky na legislativu, s požadavky zdravotních pojišťoven, hrozbou terorismu ve světě atd. Přitom náklady na investice a provoz oddělení informačních technologií, která obvykle v podnicích tyto služby zajišťují, se výrazně nemění. Na obrázku 1 je graficky znázorněn nárůst celkových nákladů v oblasti ukládání dat (data storage) během posledních let a očekávaná předpověď do budoucna.


Obr. 1: Nárůst nákladů v oblasti data storage


Jak data uložená v paměťovém systému stárnou, klesající pravděpodobnost frekvence přístupu k nim se stává rozhodujícím faktorem pro jejich optimální umístění v systému a klíčovým kritériem pro efektivní nastavení HSM (hierarchical storage management). Data zpočátku uložená na drahých FC discích (fibre channel) v enterprise diskových polích renomovaných výrobců nebo na FC discích standardních dvouřadičových systémů lze tak postupně migrovat na systémy s levnějšími SATA disky (serial ATA), nebo později na systémy využívající páskové technologie: zpočátku na tzv. rychlé pásky s rychlou dobou přístupu a dále na tzv. kapacitní pásky, kde má ukládaná informace v podstatě již jen archivní charakter. A to díky tomu, že pro data, která nejsou tak často vyžadována, není kritická rychlost jejich poskytnutí, a zejména díky tomu, že náklady na jejich uložení, zabezpečení, dostupnost a management jsou u těchto systémů několikanásobně nižší. Na obrázku 2 je graficky znázorněno, jak se během posledních let vyvíjela cena za jeden uložený a zabezpečený gigabyte dat v enterprise diskových polích, ve standardních diskových polích s dvěma řadiči, v diskových polích osazených SATA disky a v magnetopáskových knihovních systémech. Současně je předpovězeno, jak se tato cena bude vyvíjet během několika příštích let. Zatímco v roce 2002 byla cena za jeden gigabyte dat uložených a zabezpečených v enterprise diskových polích asi 85krát vyšší než v magnetopáskových knihovnách, v roce 2007 se očekává tento rozdíl více než stodesetinásobný.


Obr. 2: Cena za jeden gigabyte uložených a zabezpečených dat v jednotlivých paměťových systémech


Bylo zjištěno, že pro většinu dat klesá po třech dnech od jejich vytvoření počet přístupů až na 50 % a po třiceti dnech je to již jen několik procent. Po devadesáti dnech mají tato data většinou již jen archivní charakter. To se týká zejména e-mailů a obrazových informací v medicínských aplikacích. U dat ostatních aplikací jsou tato čísla samozřejmě jiná, nicméně trend poklesu frekvence v požadavcích na jejich přístup je obecný, viz obrázek 3.


Obr. 3: Pokles pravděpodobnosti přístupu k datům v závislosti na době od jejich uložení a nárůstu ukládaných dat


Když se budeme v oblasti data storage držet stejných principů jako dosud, ukazuje se, že ukládaná data rostou rychleji než naše schopnost spravovat je. Vhodným nástrojem pro analýzu toho, jak máme data uložena a jak je k nim přistupováno, může být například softwarový prostředek SRM (storage resource management), který je implementován nad paměťovým systémem a pomocí něhož lze zvolit optimální nastavení HSM. Na obrázku 4 je schematicky znázorněna migrace dat z nákladných enterprise diskových prostorů na levnější datová úložiště.


Obr. 4: Migrace dat


Storage administrátor by neměl informovat uživatele dat o tom, kde a jak je má uložena, pouze by měl zajistit a dohlédnout na jejich zabezpečení a v případě potřeby poskytnout jejich obnovu v požadovaném čase. Během toho, jak data v systému stárnou, jsou postupně ukládána na levnější média a jejich přístup z vyšších systémů je zajištěn pomocí pointerů. Přitom je nutné oddělit atributy jednotlivých souborů od jejich obsahu, popisné informace (metadata) zůstávají jako pointery uloženy ve vyšších systémech a umožňují tak přístup k obsahu souborů, které se nacházejí na nižší úrovni. Tuto funkcionalitu poskytuje samotný paměťový systém, nejsou jí zatěžovány procesory serverů, jejichž výkon je tak zcela věnován běžícím aplikacím. To v souvislosti se zálohováním a obnovou dat, při které dochází k výměně dat pouze mezi diskovými poli a páskovými knihovnami (serverless backup and recovery) v infrastruktuře paměťové sítě SAN (storage area network), vede k efektivnímu využití výkonu procesorů jednotlivých serverů a současně umožňuje kontinuální běh aplikací. Pomocí fyzických i virtuálních kopií dat (snapshoty) v paměťovém systému lze tak snadno realizovat celkovou i inkrementální zálohu a jejich případnou obnovu.

Závěrem
Jak bylo ukázáno, pomocí výše popsaného konceptu ILM lze optimalizovat náklady na uložení, zabezpečení, obnovu a management dat. Řešením problémů v oblasti data storage, které jsou dány neustálým nárůstem objemu dat a požadavků na jejich zabezpečení, obnovu a management, je postupná migrace uložených dat z dražších diskových prostorů na levnější úložné prostory. Konkrétní návrh řešení musí vycházet z charakteru ukládaných dat, jejich "stárnutí", požadavků na jejich zabezpečení a obnovu a z velikosti nákladů na jejich uložení v jednotlivých částech paměťového systému.

Požadovaný průměrný roční nárůst paměťových prostorů všech platforem

50 až 60 %

Diskové prostory pro Unix, Win2k a Linux

85 %

Průměrná alokace disků pro z/OS

60 až 80 %

Průměrná alokace disků pro iSeries

60 až 80 %

Průměrná alokace disků pro Unix/Linux

30 až 50 %

Průměrná alokace disků pro Win2k/NT

20 až 40 %

Poměr dat DB a souborových dat

1,5 : 1

Průměrný roční nárůst kapacity disků

60 %

Průměrný roční nárůst výkonu disků (doba vystavení, přenosová rychlost)

< 10 %

Zvýšení kapacity disků od r. 1956

36 250 krát

Zvýšení nativní kapacity pásky od r. 1984

1 250 krát

Diskový prostor na jednoho administrátora (Win2k, Unix, Linux)

400 – 750 GB

Diskový prostor na jednoho administrátora (z/OS, mainframe)

> 30 TB

Páskový prostor na jednoho administrátora

40 TB – 1 EB

Roční nárůst e-mailových spamů

cca 350 %

Homogenní SAN (stejný OS, pouze Unix, nebo Win2k)

75 %

Průměrná velikost e-mailu a přílohy v r. 2002

50 kB

Průměrná velikost e-mailu v r. 2007 (odhad)

650 kB

Počet e-mailů poslaných denně v r. 2001

12 000 000

Počet e-mailů poslaných denně v r. 2005 (odhad)

35 000 000

Procentuální zastoupení spamu v e-mailu

62 %

Roční nárůst internetového provozu

80 %


Tab.: Přehled některých statistických údajů a odhadů


Autor článku, Ing. Radomír Vacek, CSc., působí ve společnosti CPE.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Automatizace ve výrobě potravin není výsadou jen velkých firem. Jak na to krok za krokem s ERP systémem?

Stejně jako většina podniků, čelí i potravinářská výroba v dnešní době řadě výzev: nedostatku kvalitních zaměstnanců, vyso­kým cenám energií i zdražování surovin. K tomu se přidává velmi přísná legislativa a nutnost hlídat řadu ukazatelů u surovin i hotových výrobků.