facebook LinkedIN LinkedIN - follow
Exkluzivní partner sekce
Tematické sekce
 
Branžové sekce
Přehledy
 
Tematické seriály
 

GDPR

General Data Protection Regulation zásadně mění zpracování osobních údajů a zavádí nové povinnosti...

články >>

 

Jak uřídit IT projekt a nezbláznit se

Užitečné tipy a nástroje pro řešení problémů řízení inovací a vývoje produktů...

články >>

 

Industry 4.0

Průmysl 4.0

Jaký vliv bude mít čtvrtá průmyslová revoluce na výrobu a výrobní firmy?

články >>

 

Komplexní svět eIDAS

O nařízení eIDAS již bylo mnoho řečeno i napsáno. A proto jediné, o čem...

články >>

 

Trendy v CRM

Systémy pro řízení vztahů se zákazníky (CRM) prochází v posledních letech výraznou změnou. Zatímco dříve...

články >>

 

Příručka úspěšného IT manažera

Dnes je řada IT manažerů opomíjena. Úspěšní bývají brouci Pytlíci a Ferdové...

články >>

 
Partneři webu
Navisys
IT SYSTEMS 4/2010 , IT Security

Deduplikace dat – fenomén moderního zálohování

Tomáš Šilar


Společně s neustálým růstem objemu dat i požadavky na jejich ochranu se stále zvyšují i nároky na systémy pro jejich bezpečné zálohování. Tradiční pojetí zálohování přitom naráží na své limity, a výrobci proto musejí hledat nové cesty k uspokojení požadavků svých zákazníků. Co přinášejí možnosti moderní deduplikace dat podnikovým uživatelům?


Možná jste se již s přístupem tzv. deduplikace dat sami setkali. O co v ní jde? Představme si jednoduchý příklad. V rámci podniku je rozeslán e-mail s přílohou o velikosti 1 MB (třeba pozvánka na firemní společenskou akci a podobně). Pokud si každý z adresátů tuto přílohu uloží do svého lokálního úložiště, zabere celkem 500 MB (tedy 500 × 1 MB). Existuje však relativně snadná možnost, jak téměř 499 MB dat ušetřit. Jde o to, uložit pouze jeden originál a ostatní umístění stejné přílohy nahradit odkazem na něj. Ba co víc, tento postup funguje i v případě změny originálního souboru, kdy mohou být ukládány právě jen rozdíly oproti originálu. Zde ale záleží také na objemu takových změn, jelikož čím je jich více, tím rychleji metoda deduplikace druhé úrovně ztrácí své výhody.

Zálohování v centru pozornosti

Než se začneme věnovat konkrétním trendům v deduplikaci dat, shrňme si nejdůležitější fakta, se kterými lze setkat při návrzích zálohovacích řešení:
 • meziroční nárůsty objemu dat přinášejí potřebu stále větších kapacit zálohovacích systémů (diskových polí, páskových knihoven a dalších),
 • roste podíl kriticky důležitých dat – a s ním i požadavky na jejich ochranu a zabezpečení,
 • prodlužuje se čas nutný k provedení záloh, zároveň se ale zálohovací okno zkracuje,
 • roste objem dat na vzdálených pobočkách firem,
 • virtualizace infrastruktury přináší zcela nové výzvy pro zálohování.
Jedním z moderních směrů vývoje zálohovacích systémů – a odpovědí na některé z výše uvedených požadavků – jsou právě deduplikační technologie.

Jak probíhá moderní zálohování?

Při zálohování dat dochází k mnoha operacím, které jej pomohou zrychlit či lépe zabezpečit. Asi nejznámější z nich jsou:

Komprese

Přináší zmenšení objemu dat, a tedy i snížení požadavku na velikost úložiště. Běžně se používá při ukládání na magnetické pásky, ale zdaleka nejen zde.

Šifrování

I přes nevýhody, plynoucí zejména z možného zpomalení zálohovacího procesu a obnovy dat, představuje šifrování efektivní způsob ochrany dat proti zneužití.

Duplikace

Záloha vzniká ve více umístěních (a například i na různém typu médií) – hlavní výhodou je ochrana proti možné ztrátě dat vlivem poškození jednoho z úložišť.

Deduplikace

Vychází z předpokladu, že není nutno ukládat více instancí stejných dat. Místo kopií je tak ukládán pouze odkaz na originální umístění. Viz také příklad v úvodu článku.

Různé možnosti deduplikace dat

Moderní deduplikační technologie pracují na souborové či takzvaně sub-souborové úrovni. Zde algoritmus dělí každý soubor na datové bloky.
Rozlišujeme proto tři základní druhy deduplikace:
 • na úrovni souboru (celé, binárně shodné soubory),
 • s konstantní velikostí datového bloku,
 • s proměnnou velikostí datového bloku.
Výhoda deduplikace s proměnnou velikostí datového bloku spočívá v algoritmu, který provádí rozdělování souborů na jednotlivé části tak, aby pravděpodobnost, že jsou tyto části shodné, byla co možná nejmenší.
Nástroje pro deduplikaci můžeme – s ohledem na umístění, kde k deduplikaci dochází – dále rozdělit na dvě základní skupiny:
 • s deduplikací na cíli, kterým je myšleno cílové úložiště dat – jedná se tedy o technologie integrované do diskových polí, úložišť typu NAS, CAS, VTL a dalších,
 • s deduplikací na zdroji, respektive na klientovi – systém identifikuje redundantní data a minimalizuje jejich množství ještě před tím, než jsou odeslána přes síť (LAN/WAN) k zálohování.
Za hlavní kritéria deduplikace považujeme:
 • deduplikační poměr – hlavní parametr ukazující úsporu kapacity zálohovacího úložiště,
 • zkrácení doby zálohy – významný parametr u deduplikace na zdroji (zálohují se pouze změněné části souborů),
 • úspora kapacity datových linek, respektive snazší centralizace zálohování dat.

U zdroje, nebo raději až v cíli?

Deduplikace na cíli řeší primárně otázku úspory kapacity zálohovacího úložiště – v případě zálohování na disky tedy šetří diskovou kapacitu, v případě zálohování na pásky šetří kapacitu knihovny, respektive potřebu páskových médií. Málokdy vede ke zkrácení času potřebného pro zálohování, protože všechna data stejně musí být nejdříve přenesena na cíl. Tato metoda má nicméně univerzální použití – hodí se, pokud má zákazník zájem o deduplikaci záloh, ale v danou chvíli již používá stávající zálohovací řešení a nechce migrovat na jiný zálohovací software.
Deduplikace na zdroji přináší (v porovnání s deduplikací na cíli) další dvě zásadní výhody. Stejně jako u prvního řešení snižuje objem dat – a tím šetří místo na úložišti. Navíc výrazně snižuje zatížení sítě (LAN/WAN) a zásadně redukuje čas potřebný k provedení zálohy – přenášíme pouze změny. Součástí těchto řešení může byt i takzvaná globální deduplikace, která je prováděna na úrovni všech dat v prostředí, nikoli pouze na úrovni daného klienta. Systém tedy přenese celý datový fond pouze jednou a potom již vytváří plné zálohy prostřednictvím inkrementálních rozdílů s tím, že každá záloha je kompletní (full backup), i když se zálohují pouze změny. Tato metoda je ideální pro rozsáhlé virtuální prostředí, centrální zálohování vzdálených poboček nebo centrální zálohování velkého počtu koncových zařízení (PC, notebooky).

Očekávaný vývoj u deduplikace dat

S ohledem na obrovské nárůsty dat se nasazení deduplikační technologie stává standardem u zálohování velkého objemu dat (desítky terabytů a více). Zejména u deduplikace na cíli se budou prosazovat otevřené systémy kompatibilní s řadou zálohovacího softwaru různých výrobců – jejich nasazení nebude vyžadovat žádný složitý zásah do stávající infrastruktury. Do budoucna se jeví jako pravděpodobnější využívání systému s proměnnou délkou bloku, protože dosahuje výrazně vyššího deduplikačního poměru.
Přístup označovaný jako deduplikace dat se v současnosti stává neoddiskutovatelným trendem při zálohování. Nejen, že snižuje zatížení sítě a potřebu úložné kapacity, ale umožňuje i rychlejší obnovu dat. A protože úspory jsou vždy až na prvním místě, pomáhá významným způsobem snižovat investiční náklady do hardwaru. Nejvhodnější formu deduplikace je vhodné zvolit na základě realistické analýzy – důležité může být, jak často provádíte plné a inkrementální zálohy, kde je uchováváte a s jakými objemy dat pracujete. Pokud tyto okolnosti vezmete v úvahu, nemůžete zvolit špatně.

Autor působí jako business unit manager EMC ve společnosti Servodata.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Covid jako katalyzátor digitalizace a fenomén homeworkingu

IT Systems 1-2/2021V aktuálním vydání IT Systems jsme se zaměřili na odvětví, která v současné době prochází velmi turbulentním vývojem. Vím, že se to dnes dá říct prakticky o všech oblastech našeho života, ovšem retail, logistika a potravinářský průmysl jsou navíc názorným příkladem, proč je pandemie onemocnění covid označována za katalyzátor digitalizace desetiletí. Pokud totiž ještě někdo pochyboval o významu digitalizace, musel v loňském roce prozřít.