facebook LinkedIN LinkedIN - follow
IT SYSTEMS 5/2018 , AI a Business Intelligence

Úložiště datových skladů a jejich technologická evoluce

Martin Bém


AdastraS nástupem Big Data technologií se úložiště datových skladů neoprávněně dostala mimo zájem odborné veřejnosti. Přitom i zde došlo v poslední letech k výrazným pokrokům ve výkonových i cenových parametrech.


Zpátky do minulosti

Klasické datové sklady opíraly svůj výkon o velmi drahé klasické magnetické disky, které sice dosahovaly naprosto fantastických parametrů typu 15 000 otáček za minutu a minimálních vyhledávacích časů v řádu jednotek milisekund, ale na úkor relativně malých kapacit a krátké životnosti. Aby se zajistil vysoký čtecí a zápisový výkon, řešila se neustále otázka, kam umístit a jak propojit celé armády disků, aby jejich spřažený výkon byl pro komplexní analytické úlohy datových skladů smysluplný. Neexistoval kvalitní datový sklad bez velmi výkonného a drahého „rotujícího“ úložiště. Nejužším místem byl výkon disků a nezbývalo než nakupovat a instalovat další a další magnetické disky. Alternativní technologie úložišť byly stále nepřipravené, operační paměti drahé, nové softwarové architektury se teprve rodily. Naštěstí toto přešlapování ve slepé uličce díky řadě faktorů poměrně brzy skončilo.

Big Data odlehčují datové sklady

Jedním z prvních inovačních impulzů byl nástup do jisté míry konkurenčních Big Data technologií, které se ve svých prvních generacích zaměřovaly na sdružování relativně levného hardwaru do softwarových clusterů (např. Hadoop stack). Často se místo nového hardwaru používal i starší vyřazený, ale stále funkční. Tato řešení inspirovala datové sklady k několika věcem:

  • Nově mohly datové sklady začít efektivně archivovat/off-loadovat data mimo svoje poměrně drahá disková řešení.
  • Díky tomu ubyly starosti s neustálým dokupováním nových high-end magnetických disků, a to i přesto, že jejich kapacita postupem času zajímavě rostla a stále ještě roste až do řádu desítek terabytů na kus.

Sice i dříve existovala teoretická „brzdná“ varianta typu cold backup na pásky, ale zcela upřímně využitelnost dat uložených na tomto typu médií se z pohledu datové analýzy limitně blížila nule. Dnes už to neplatí. Existují technologie, které umožňují načítat data z pásek transparentně přímo do datového skladu, jen je třeba počítat s relativně velkou časovou latencí analytických dotazů.

Nástup nemagnetických disků

Dalším evolučním krokem byl nástup SSD (Solid State Disk). SSD nahrazují rotující magnetické plotny integrovanými obvody. V principu SSD funguje jako vysoce paralelizované úložiště s okamžitým přístupem kamkoliv, zatímco klasický magnetický disk funguje nejlépe v sekvenčních operacích, kdy magnetické hlavičky systematicky pročesávají povrchy rotujících magnetických ploten. Nutno poznamenat, že první generace SSD byla provozně problematická, ale díky technologickým inovacím a kvalitnějším postupům výroby, které zajišťují primárně větší množství přepisů, SSD postupně nahradily klasické magnetické disky.

Magnetické disky zatím pořád vedou v absolutních kapacitách. Ve srovnání s SSD ani výrazně neztrácejí při sekvenčních operacích.

Nejprve se SSD využívaly jako cache pro magnetické disky:

  • Latence SSD je ve srovnání s klasickým magnetickým diskem zlomková.
  • Navíc má SSD i výkonnější zápis a čtení, které zatím nenaráží na fyzikální limity točících se magnetických ploten.

Nasazení SSD v hybridních diskových polích jako doplněk klasických magnetických disků vedlo k razantnímu nárůstů počtu čtecích a zápisových operací – a to o několik řádů! A to celé fakticky za zlomkovou cenu ve srovnání s řešením postaveným na hrubé síle hromad spřažených magnetických disků.

Stinnou stránkou SSD byla limitovaná kapacita, často nižší životnost a vyšší cena za uloženou jednotku. Problémy při nasazení SSD v hybridních polích způsobovaly i různé „inteligentní“ algoritmy, které řídily kešování SSD, takže se občas kešovalo něco jiného, než bylo potřeba (např. aktuální backup místo kritických dat). Bez problémů nebyly ani databáze datových skladů, které se musely nejprve naučit pracovat s SSD a být „SSD aware“.

1TB WD Black(TM) NVMe(TM) SSD

Fiber Channel skladům už dávno nestačí

Naštěstí se tyto problémy postupem času podařilo odstranit a v současnosti se můžete setkat i s diskovými poli složenými pouze z SSD. SSD navíc postupně ukázaly výkonové nedostatky rozhraní typu SCSI (do této kategorie patří právě i rozhraní typu fiber channel), které bylo prapůvodně koncipováno pro klasické rotující magnetické disky a páskové jednotky. Někdy se fiber channel nahrazuje výrazně modernějším a univerzálnějším rozhraním InfiniBand.

Stále větší nároky na výkon vyvolaly další evoluci SSD, které se přesunuly v podobě flash karet blíže procesorům přímo do datových sběrnic typu PCI Express. Zajímavým vedlejším efektem tohoto přímého přístupu je pokles zátěže procesoru díky menší režii diskových operací. V současnosti se flash karty využívají jako cache pro jiná pomalejší zařízení nebo jako primární úložiště. Důležitým závěrem je, že se klasický koncept sdíleného diskového pole v prostředí datového skladu přežil a standardem jsou úložiště částečně nebo plně postavená na SSD a flash kartách vyhrazených pro servery datového skladu.

Ultrastar SN200

Zrození appliancí pro datové sklady

Nástupu samotných flash karet ale předcházela ještě jiná zajímavá inovace, a to nástup appliancí pro datové sklady, které v sobě integrují výpočetní sílu i datové úložiště, které je nejen optimalizované pro provoz datového skladu, ale navíc je pro datový sklad i plně dedikované, a nemůže tak docházet k degradaci výkonu z důvodu konkurence jiných aplikací. Obecně diskové pole prostě nejde optimalizovat na všechny typy operací, a proto je vhodné používat jednu sadu disků pro primární systémy a druhou pro analytiku. Dále integrace úložiště a výpočetní síly umožňuje celou řadu architektonických a softwarových optimalizací, které u obecně postavených řešení nelze zrealizovat. Fakticky se jedná o správné vyvážení výpočetní síly a rychlosti datového úložiště, aby se vzájemně zbytečně „nepředbíhaly“, podporu pro různé typy horizontální a vertikální škálovatelnosti a v neposlední řadě sjednocení managementu celého řešení. Navíc appliance mohou přirozeně využívat flash karty. Flash karty tak ve výsledku povýšily appliance pro datové sklady do zcela nové výkonové třídy a přinesly výkon, který bychom před pár lety považovali za sci-fi.

Evoluce úložišť

Každému to nejsprávnější datové úložiště!

Dalším evolučním krokem je neustálé zlevňování operačních pamětí v kombinaci s jasně definovanou paměťovou hierarchií. Díky tomu mohou databáze datových skladů zpracovávat více dat v paměti a nečekat na pomalejší trvalá datová úložiště (i když díky flash kartám už vůbec nemusí být pomalá). Díky softwarovým inovacím lze operační paměť používat pro větší množství dat díky sloupcovým uložením a datové kompresi.

Paměťová hierarchie datového skladu ukládá data do operační paměti a dále je kopíruje do méně výkonných úložišť pro zajištění trvanlivosti. Ostatní důležitá data tak mohou být dostupná na velmi rychlých flash kartách nebo SSD a méně důležitá data mohou být na klasických pomalých magnetických discích. Data, která se nevyužívají v datovém skladu, mohou být uložena na páskách v moderních páskových knihovnách, které tato data dokážou na vyžádání zpřístupnit bez zásahu administrátora. Alternativně mohou být pásky nahrazeny konceptem „rozmrazených pásek“ pomocí Big Data technologií.

Popření klasické architektury počítačů

Aktuální inovací jsou opravdu použitelné paměti typu NVRAM. Tento typ paměti kombinuje rychlost operační paměti s perzistencí a kapacitou, kterou přinášejí například flash karty. NVRAM se v blízké době budou nasazovat jako specializovaná cache mezi operační paměť a datové úložiště. Udává se, že NVRAM má až 20x nižší latenci než už tak velmi rychlá flash karta. Takže se opět těšme na nárůst výkonu datových skladů.

Nástup NVRAM v blízké budoucnosti naruší tradiční von neumannovskou architekturu počítačů, kterou používáme prakticky od konce 2. světové války. Je jen otázkou času, kdy dojde k poklesu ceny NVRAM na takovou úroveň, aby došlo k opravdové revoluci nejen na poli úložišť datových skladů. Princip NVRAM boří některá základní paradigmata ve tvorbě současného softwaru. Zdá se, že datové sklady budou jedna z prvních oblastí, kde se NVRAM skutečně prakticky prosadí.

Dočkáme se živých pamětí?

NVRAM však není žádná konečná a ve vzdálenější budoucnosti se můžeme těšit na paměti na principu DNA. Jejich současná udávaná kapacita je stovky petabytů (!) na gram při ceně jednotek tisíc dolarů za megabyt. Prozatím, i přes obrovský potenciál, jsou tyto vysokokapacitní paměti velkým otazníkem a jejich komerční využití není na pořadu dne.

Martin Bém Martin Bém
Autor článku působí jako Senior Consultant ve společnosti Adastra. Aktivně se věnuje návrhu a vývoji datových skladů, Data Governance a datovému modelování, vždy s důrazem na přidanou hodnotu řešení pro zákazníky. Podílel se na řadě projektů datových skladů v České republice i v zahraničí, primárně v oblasti bankovnictví a finanční služeb.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Konec papírování, digitalizujte a usnadněte si práci!

IT Systems 3/2024V aktuálním vydání IT Systems jsme se zaměřili na vývoj digitalizace ve světě peněz, tedy v oblasti finančnictví a pojišťovnictví. Dozvíte se například, proč je aktuální směrnice PSD2 v inovaci online bankovnictví krokem vedle a jak by její nedostatky měla napravit připravovaná PSD3. Hodně prostoru věnujeme také digitalizaci státní správy a veřejného sektoru, která nabírá obrátky.