facebook LinkedIN LinkedIN - follow
Cloud computing a virtualizace IT , AI a Business Intelligence , Cloud a virtualizace IT

Datalore

Nové online řešení pro analýzu a vizualizaci dat

Zoya Cherkasova


JetBrainsSpolečnost JetBrains, která byla doposud známá především svými nástroji pro vývoj (IntelliJ IDEA a PyCharm), nedávno uvedla nástroj pro aplikace datové analýzy s využitím strojového učení. Webová aplikace nazvaná Datalore by měla oslovit zkušené uživatele, ale současně i ty, kteří se strojovým učením začínají.


Datalore je webová aplikace pro Python, která kombinuje stávající potřeby datové analýzy a přidává k nim další působivé funkce. Cílem ovšem není jen aplikovat inteligenci známou z nástrojů od JetBrains na svět datových věd. Lidem, kteří chtějí pracovat s daty, ale prostě nemají dostatečné zkušenosti s programováním, aby zvládli existující analytické knihovny a nainstalovali si veškerý potřebný software, nabízí Datalore všechny datové nástroje v jedné záložce prohlížeče – editor kódu doplněný o okno výstupu, vestavěné analytické knihovny, datové sestavy, systém správy verzí a inkrementální on-line výpočty.

Inteligentní editor kódu je nejvýraznější funkcí celé aplikace. Analýza dat, stejně jako jejich předzpracování a vizualizace vyžadují psaní mnoha řádek kódu, který spoléhá na řadu specifických knihoven. Inteligentní napovídání kódu, inspekce kódu, rychlé automatické opravy a snadná navigace usnadňují kódování. Editor pomáhá uživateli soustředit se na data a neztratit se v detailech.



 

Další způsob, jak Datalore pomáhá uživateli, jsou Intentions, neboli záměry. Drobné návrhy zobrazené v dolní části kódovací buňky navrhují další možné kroky analýzy. Tyto návrhy se mění podle aktuálního obsahu buňky a nabízejí další relevantní možnosti. Pokud uživatel jeden z těchto návrhů vybere, potřebný kód je automaticky vygenerován. Intentions/záměry zjednodušují proces kódování tím, že eliminují zapisování standardních částí kódu, jako například pro odeslání datové sestavy.

Dalším přídavkem, který uživatele potěší, jsou inkrementální výpočty. Když si uvědomíte, kolik malých úprav se provádí v procesu analýzy dat – od přepínání pomocí hyperparametrů po přejmenování os výkresu – manuální spouštění buněk a kódu znovu od počátku může být po chvíli únavné. Aplikace Datalore řeší tento problém sledováním všech závislostí mezi probíhajícími výpočty a prováděním jen relevantních výpočtů souvisejících se zadanou úpravou, takže se minimalizují přepočty zapříčiněné změnami. A k tomuto procesu dochází rychle za běhu, takže uživatel vidí jen konečné výsledky po zapracování všech změn.

Kromě inteligentní pomoci s kódováním a inkrementálních výpočtů se nabízí mnoho dalších funkcí. K dispozici je mnoho předinstalovaných datových sestav pro ty, kteří si chtějí pohrát se standardními úlohami strojového učení, jako je rozpoznávání čísel ze sestavy MNIST nebo výpočet pravděpodobnosti přežití cestujících na Titaniku. A rovněž je možné nahrát vlastní datové sestavy jako soubory CSV pomocí správce souborů. Předinstalované jsou i základní knihovny pro analýzu dat – numpy, pandas, matplotlib, sklearn. A podpora pytorch umožňuje budovat neuronové sítě a modely hlubokého učení (deep learning) k zajištění ještě úžasnějších výzkumů.

Ale pro lidi, kteří nežijí v nádherném světě modelů, nemůže být analýza dat úplná bez jasných vizuálních znázornění, která vysvětlují informace skryté v datech. K vizualizaci slouží dvě pokročilé vizualizační knihovny: datalore.plot inspirovaná myšlenkami „gramatiky grafiky“ včetně její implementace v jazyce R ggplot a datalore.geo_maps umožňující doplnit analýzu o mapy. Obě vytvářejí interaktivní výstupy, které nejen umožňují hlubší průzkum dat, ale dovolují například vytvořit detailní srovnávací mapu a zkoumání dat s vysokou přesností. Potřebujete porovnat posun míry kriminality v různých ulicích? Snadné.



 

Zatímco v kódovacích buňkách se děje spousta zajímavých věci, značkovací buňky umožňují přidávat k analýze komplexní komentáře. Díky podpoře technologie LaTeX je možné vytvořit interaktivní workbook naplněný vzorci, vysvětleními a výkresy, který může být velmi užitečný například pro učitele.

Datalore umožňuje přístup k různým výpočetním zdrojům podle složitosti úkolu. Jednoduché algoritmy běží na malých výpočetních agentech, zatímco algoritmy hlubokého učení vyžadují výkonnější agenty. Přepínání mezi výpočetními instancemi umožňuje přesun od jednoduché statistické analýzy ke konvolučním neuronovým sítím, jak člověk postupně získává sebevědomí a dovednosti.

Všechny úpravy se automaticky ukládají, takže se nemusíte obávat ztráty dat. Pro analýzu dat (a pro lidi, kteří analýzu provádějí) je to zásadní věc – neexistuje nic jako příliš velký počet záloh. Pokud se něco pokazí, je díky systému správy verzí k dispozici úplná historie souborů, takže je možné vrátit se k předchozímu modelu nebo začít znovu.

Jako třešničku na dortu Datalore implementuje přístup k listu strojového učení ve stylu Google Docs a umožňuje vzdálený přístup k editoru kódu v reálném čase. Chcete-li sdílet výsledky, stačí zaslat mailem odkaz spolupracovníkům, aby mohli přidávat kód a komentáře. Výpočty běží dostatečně rychle, aby všichni členové mohli provádět potřebné úpravy on-line a průběžně reagovat na výpočty jiných.



 

Od vydání otevřené beta-verze produktový tým pečlivě sleduje reakce uživatelů na to, co dalšího by datoví analytici rádi viděli ve svém vývojovém prostředí. Produktový tým má mnoho nápadů a nyní shromažďuje zpětnou vazbu od uživatelů ohledně požadovaných funkcí. V režimu veřejné beta-verze je nástroj Datalore otevřen všem a vývojáři plánují zachovat bezplatný komunitní plán se středním výpočetním agentem. Předpokládá se, že v budoucnu se bude platit za používání výkonnějších instancí, než je standardní jednotka CPU, v současné době je ale analýza dat se všemi nabízenými funkcemi nástroje Datalore otevřená každému.

Zoya Cherkasova Zoya Cherkasova
Autorka článku působí ve společnosti JetBrains.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.