facebook
Tematické sekce
 
Branžové sekce
Přehledy
 
Tematické seriály
 

GDPR

General Data Protection Regulation zásadně mění zpracování osobních údajů a zavádí nové povinnosti...

články >>

 

Jak uřídit IT projekt a nezbláznit se

Užitečné tipy a nástroje pro řešení problémů řízení inovací a vývoje produktů...

články >>

 

Industry 4.0

Průmysl 4.0

Jaký vliv bude mít čtvrtá průmyslová revoluce na výrobu a výrobní firmy?

články >>

 

Komplexní svět eIDAS

O nařízení eIDAS již bylo mnoho řečeno i napsáno. A proto jediné, o čem...

články >>

 

Trendy v CRM

Systémy pro řízení vztahů se zákazníky (CRM) prochází v posledních letech výraznou změnou. Zatímco dříve...

články >>

 

Příručka úspěšného IT manažera

Dnes je řada IT manažerů opomíjena. Úspěšní bývají brouci Pytlíci a Ferdové...

články >>

 
Partneři webu
Navisys
Big Data a Business Intelligence , AI a Business Intelligence

Budujeme základy pro datově řízenou firmu

Výběr platformy pro data science a analytiku

Jan Matoušek


Data MindPři budování datové platformy nemůžete přemýšlet jen dva roky dopředu. Infrastruktura, kterou budujete, ve firmě s trochou štěstí zůstane i po vašem odchodu. Výběr platformy pro data je něco, co ve firemním prostředí trvá rok až dva. Od strategického rozhodnutí je celkem daleko po realizaci. Nabízím k tomuto tématu pohled datového analytika, data scientisty, který s daty žije celý profesní život. Zaměření na pokročilé analýzy přitom nelze zapřít. Grafy umí nakreslit každý, ale předpovědět vývoj businessu a jednotlivých zákazníků je to, kde firma získá konkurenční výhodu. Proto se volba platformy zaměřuje v mém podání právě na data science řešení.


Každodenní revoluce vs matadoři

Ačkoli podle prodejců řešení se revoluce v datech děje každý den, je třeba rozlišovat, které trendy nás přežijí a které jsou jen dočasné. Při výběru je vhodné balancovat mezi zavedenými technologiemi a novými trendy. Moře datových technologií je obrovské, a najít balanc mezi pokročilými řešeními posledních let a stabilními stavebními kameny je práce pro zkušeného profesionála. Výběr platformy se nevyplatí nechat ani na top managementu, který normálně řídí pouze akvizice nových firem, ani na čerstvě vystudovaných absolventech, kteří z nadšení koupí to, co je nové. Ve výběru by měl být zainteresován někdo, kdo v datech denně plave a umí si technologicky „zašpinit ruce“. Reporting, data science, řízení kampaní a finanční analytika jsou business uživatelé nového datového řešení. Při rozhodování by měli mít minimálně poradní hlas. Dohoda člena boardu na golfu zde není dobrá volba. Pokud nebude fungovat datový motor vaší firmy, kam se bude korporace ubírat?

Dilemata plné kontroly a pohodlí

Kritickým a velmi sporným bodem je pro firmy výběr mezi dvěma velkými datovými proudy. Jedním je cloud tedy pronájem datacentra od globálního poskytovatele a druhým je on-premise čili budování vnitřního datacentra. Soupeři mají víceméně vyrovnané účty. Zatímco rychlejší a modernější je provozování cloudu, kde máte veškerý luxus nestarat se o hardware; on premise má v ruce esa přímé kontroly nákladů a fyzické ochrany dat. Otázka „co je lepší?“ je do značné míry filosofická a odpovídá zaměření a stavu firmy. Také náklady vycházejí v jedné firmě jednoznačně ve prospěch vlastních systémů, zatímco v jiné vyjde cloud levněji. Nákladová analýza je tak věcí, kterou není možno zanedbat. Je zde na místě zvážit finanční náklady a přínosy jednotlivých řešení a zamyslet se i nad hybridem, který spojuje výhody vysoké flexibility cloudu (například objednáte 128 procesorů na dvě hodiny) s výhodami vlastnictví dat pod vaší střechou (například nejste zcela závislí na politice Amazonu).

Cloud pro každého?

Zatímco před deseti lety byl cloud pro datovou analytiku okrajová možnost, pokud budujeme infastrukturu pro roky 2020-2030, je cloud již plnohodnotný scénář. Vyplatí se jednoznačně při malých objemech dat a pokud nechcete budovat vše sami. Dále zde máme nemalou skupinu technologických startupů, které přímo vznikly z výhod vysoké flexibility a výpočetního výkonu cloudu. Nejtěžší volbu mají jako vždy „starší a pokročilí“ korporáti, kteří drží mnohdy funkční a zavedené databázové systémy a vedle toho experimentují s cloudem pro inovativní a disruptivní projekty, jež je mají přenést do jednadvacátého století.

Analytické technologie a reporting

Pro pokročilou analytiku je pořád platná svatá trojice analytických jazyků SQL, R, Python, s jejichž podporou v cloudu i na vlastním hardware je to dobré. Z reportingových systémů přichází v úvahu Power BI, Tableau a Qlik. V mnoha firmách se navíc používá Good Data, díky českým kořenům a dobré podpoře. Výběr platformy je přímo provázán s typy databáze a analytického softwaru, cílem je nejen aby byl dostupný, ale především aby dobře komunikoval s ostatními částmi analytického ekosystému. Výběr platformy proto musíme provázat s okolními technologiemi a dovednostmi týmu. Právě v tomto krutě selhává rozhodování shora, kdy vyšší management nemůže z pozice přehledu nad celou firmou dohlédnout kvalitu konektorů mezi jednotlivými částmi analytického ekosystému.

S hlavou v oblacích – cloudová řešení datových platforem

Z velkých cloudových providerů pro datové platformy v zásadě stojí za úvahu dvě. Amazon a jeho AWS je nesporným lídrem v oblasti cloudových řešení. Rozsáhlá infrastruktura Amazon AWS však znamená dlouhý adaptační proces a potřebu specialistů. Začátky nejsou právě lehké. Na paty Amazonu šlape Microsoft Azure, které se vyplatí zejména, když vaše firma jede na Microsoftu, a tedy máte výhodu o poznání snazší integrace. Výhoda lehké integrace je zejména u SQL serveru, Windows serveru a aplikací Office. Pro linuxový server pochopitelně stále ještě nepředstavuje Microsoft Azure takovou výhodu proti konkurenci. Krom kvality řešení zde zvažte ještě i cenu, a to raději v pesimistickém scénáři, kdy se analytické požadavky stupňují až do výše vašeho budgetu.

Hadoop – pár vítězů a spousty zamotaných hlav

Zvláštní kapitolou je technologie pro distribuované výpočty Hadoop, který je v roce 2019 již za fází konce nadšení, alespoň na západních trzích. Ještě v roce 2014 přitom chtěl každý mít masivně paralelní systém „jako Google“ a Hadoop byl na vrcholu slávy. Tato složitá technologie se většině firem v první fázi nevyplatila z hlediska flexibility a nákladů na správu. Správná lekce z toho, že co je bezplatné, není tak úplně zdarma, se uskutečnila. Pro velké a datově založené firmy má Hadoop svůj nezastupitelný smysl, ale pro střední firmy se stal mnohokrát i pastí pro svoji náročnou údržbu a požadavky na obsluhu. Také analytické nástroje mají na Hadoopu stále ještě pár nekompatibilit, i když ty se časem vyřeší. Pokud nejste telekomunikační operátor, sociální síť nebo webová mediálka, které potřebují obrovskou masu paralelního výkonu, s Hadoopem raději opatrně. Když už se i přesto rozhodnete pro Hadoop, nebudete v tom chtít být sami. Sjednejte si profesionální podporu nebo rovnou provozovatele této náročnější platformy. Ideální pro malou a střední firmu je, když vás od Hadoopu někdo odizoluje, tak jako to dělá platforma Databricks založená na Spark, která vás nasměruje do uživatelské vrstvy. Pokud ovšem jdete cestou datové intenzivního startupu, nebo potřebujete rychlé experimentální pískoviště a máte špičkové data inženýry, nic uvedeného shora pro vás neplatí. Hadoop se dokáže dostat do bodu na ose ceny a výkonu, na které nikdo jiný není. Ovšem jen pro velmi pokročilé uživatele a velké objemy dat. Bylo historickou iluzí domnívat se, že se hodí pro každého.

Budujeme na vlastním železe

Stále nám tu zůstává starý dobrý on-premise který vychází v mnoha případech levněji než cloud, zejména tam, kde se hardwarové náklady optimalizují a s hlídáním cloudových plateb nejsou zkušenosti. Problémem on-premise je, že není věčný a výměny disků nebo celých serverů přece jen zdržují. Pro malé datové sklady se pořád perfektně hodí Microsoft SQL, který uživatelům nabízí kompatibilitu, přístupnost a uživatelské pohodlí nevídané u ostatních databází. U středně velkých řešení je historicky silný Oracle, který co ubere na uživatelském pohodlí, přidá ve výkonu. A pro velké hráče je zde Teradata, výkonný a nákladný matador terabajtových databází. V popularitě se vyhřívají i open source databáze MySQL a zejména PostgreSQL, jež se více podobá moderním standardům. Inovativní firmy a startupy pak zavádí některou z desítek databází nové generace, obvykle vysoce výkonnou a flexibilní, ale již méně kompatibilní a propojitelnou se zlatými standardy.

Hybridní řešení

Pokud jste někdy zkoušeli vypočítat 1+1 v cloudu víte, že odezva takového příkladu je překvapivě pomalá. To se týká všech triviálních prototypů modelů, analýz, náčrtů a skic, pro které je cloudová fabrika příliš těžkopádná. Vybavit se nejrychlejšími disky (NVMe SSD) a vyvíjet prototypy lokálně proto není vůbec od věci. Musíte mít ale zajištěnou hladkou cestu migrace do cloudu, a to od začátku vaší práce. Ideálně by integrace měla vypadat tak, že přepnete jeden přepínač. V praxi pak budete muset změnit cesty k souborům, ovladačům, jména zdrojů apod. Nevyhovující ale již je, když na cloudu běží zcela nekompatibilní verze a/nebo úplně jiná platforma než v testovacím prostředí.

Předpoklady – zdraví IT i marketingu

Datové služby nejsou ve vzduchu, a end-to-end implementace musí končit v oddělení připraveném na změny. Vezměme třeba oblíbenou data science pro marketing. Pokud budu v následujícím roce začínat schůzky otázkou, zde má firma zdravý marketing, mohu se se zlou potázat. Nicméně otázka o připravenosti marketingového a IT oddělení je zcela zásadní pro implementační snahy. Alternativou k interní síle je samozřejmě možnost marketing a IT si najmout externě. Pronájem datového IT není takový problém, jak se zdá. Zejména u cloud platforem nemusí být od věci zcela se zbavit starostí s údržbou serverů nákupem platformy jako je Keboola, která řeší propojení všeho se vším sama. U marketingových specialistů se někteří z těch nejlepších živí jako freelanceři nebo vystupují jako nezávislé firmy. Vlastnictví procesu je ale i zde na místě. Když někomu půjčujete hotel, nechte si klíč. Sledovat a rozumět tomu, co dodavatel dělá je podmínka téměř nutná. A jsme zpátky u předpokladu kvalitních lidí.

Poměry v táboře data science řešení

Pokud máme vyřešenou platformu, podíváme se v rychlosti na nástroje pro data science. V táboře analytických řešení to vře. Vzestup Pythonu je potvrzen ve dvou po sobě následujících letech. Nicméně ani R to nevzdává a bude tu s námi ještě dlouho. Bývalý startup RapidMiner chce být dominantním řešením, a ovlivňuje výsledky všech anket a „nezávislých studií“ seč to jde, takže mu není co věřit. A víte, co dělá SQL a Excel? Ani se nehne! Po pětadvaceti letech v absolutní kondici i mezi pokročilými analytiky!

Obr. 1: Tříletý vývoj softwaru pro data science: Zdroj Kdnuggets
Obr. 1: Tříletý vývoj softwaru pro data science: Zdroj Kdnuggets

Závěry – důležité je, aby to chodilo

Nadšení z technologií obvykle opadá po prvních měsících problémů. K nové infrastruktuře si sednou nové generace zaměstnanců, kteří nesdílí naše budovatelské nadšení a nová platforma je pro ně prostě jen pracovní nástroj. Mají velmi pragmatické otázky. Jak je to rychlé? Jde to propojit? Podporuje to všechny jazyky používané ve firmě? Jak z toho dostanu data ven? A padne i nenáviděné: „Jde to dát do Excelu?“. Ačkoli budovatelům nové platformy se budou zdát tyto otázky jako povrchní, mají svůj smysl. Auto musí, kromě svých úžasných a unikátních výhod, také jezdit a brzdit. Uživatelské testování proto nelze podcenit, protože platforma bude jen tak dobrá, jak dobří budou její uživatelé.

Jan Matoušek Jan Matoušek
Autor článku je data scientista již od roku 2003. Od roku 2009 vede svoji firmu Data Mind a řeší s firmami využití dat. Postavil desítky prediktivních i segmentačních modelů, které vydělávají skutečné peníze pro klienty.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Pomáháme zákazníkům ochránit jejich data

říká Igor Cejkovský, produktový manažer Synology

Igor CejovskySpolečnost Synology patří celosvětově mezi lídry na trhu síťových úložišť a snaží se prosadit také nabídkou routerů a dalších síťových zařízení. Jak se této značce daří na našem trhu a jaké novinky připravuje na další rok, jsme se zeptali pana Igora Cejkovského, který působí ve společnosti Synology na pozici produktového manažera.