Třicátý listopad 2022 byl dnem, který změnil historii. Právě tehdy byla totiž pro veřejnost uvolněna aplikace ChatGPT od společnosti OpenAI. Od té doby uplynulo jen necelé tři roky, během nichž jsme zaznamenali raketový nárůst zájmu o umělou inteligenci. To vedlo k téměř desetinásobnému nárůstu tržní kapitalizace společnosti Nvidia, předního výrobce grafických procesorů, a ke krajně velkorysým předpovědím ohledně potenciálních celkových investic podniků do AI i dopadu těchto technologií na společnost.
Nástup umělé inteligence se zdál být na dohled již mnohokrát. Již před 70 lety zde byl Turingův test, poté velkou pozornost vzbudily porážky velmistrů od šachových programů, objevil se koncept samořízených aut – a nyní přichází éra zájmu o generativní AI. Přes veškeré rozdíly jsou ale všechny tyto technologie založeny na určitých základních společných konceptech. Po mnoho let byl pokrok v oblasti umělé inteligence postaven na třech klíčových prvcích:
- výkonnějších výpočetních zdrojích – dnes v podobě grafických procesorů;
- vylepšených algoritmech nebo modelech – v případě generativní umělé inteligence na architektuře Transformer a velkých jazykových modelech (LLM);
- přístupu k obrovskému množství dat. Na velmi vysoké úrovni fáze projektu AI zahrnují sběr a přípravu dat, vývoj a trénování modelu a nasazení modelu (inference).
Data jsou základem všeho
Sběr a přípravu dat rozhodně nelze opominout: kvalitní, relevantní a nezkreslená data jsou pro úspěšný projekt umělé inteligence vždy klíčová. Často se uvádí, že organizace mají problémy s pochopením svých dat, určením jejich vlastnictví a odbouráním datových sil, aby bylo možné tato data efektivně využívat napříč podnikem. Bez přístupu k vysoce kvalitním datům je nepravděpodobné, že by iniciativa AI mohla být úspěšná. Organizace ve svých projektech AI stále častěji využívají multimodální data; nejen textová, ale také zvuková, obrazová a video. Množství dat, a tedy i požadavky na jejich ukládání, jsou značné.
Trénování modelu
K trénování modelů generativní umělé inteligence se obvykle přistupuje jedním ze dvou způsobů. První možností je trénování základního modelu, které zahrnuje využití obrovského množství dat, vytvoření modelu AI od základu a iterativní trénování tohoto modelu s cílem vytvořit obecný model pro další použití. Takový postup obvykle provádějí velké technologické společnosti s velkými zdroji; společnost Meta nedávno popisovala trénování svého open source modelu Llama 3.1 405B. Model zahrnoval 405 miliard (billions – B v názvu) parametrů s více než 15 biliony tokenů, čemuž odpovídala časová náročnost tréninku přibližně 40 milionů hodin na 16 000 GPU. Takto dlouhá doba zdůrazňuje klíčový aspekt trénování velkých modelů genAI: nutností jsou časté kontrolní body umožňující obnovu po selhání. U velkých modelů je proto nezbytné, aby úložiště používané pro kontrolní body mělo velmi vysoký výkon a kapacitu zápisu.
Druhým přístupem k tréninku genAI je jemné ladění modelu. Jedná se o převzetí existujícího modelu, kde již jiná organizace provedla těžkou práci; následuje použití dat specifických pro danou oblast na tento model prostřednictvím dalšího trénování. Tímto způsobem organizace těží z vlastního personalizovaného modelu, přitom jej ale nemusí jej trénovat od začátku.
Bez ohledu na volbu základního přístupu platí, že trénování vyžaduje masivní paralelní zpracování pomocí GPU, což si dále zase žádá vysokou propustnost a rychlost přístupu pro efektivní zpracování velkých souborů dat. Datová úložiště pro trénink umělé inteligence proto musí poskytovat velmi vysoký výkon (v neposlední řadě proto, aby bylo možné GPU zásobovat daty), škálovatelnost pro správu velkých souborů tréninkových dat a spolehlivost vzhledem k významu projektů a nákladům na trénink modelů.
Nasazení do produkčního prostředí
Jakmile je model natrénován a jeho fungování splňuje požadavky, dojde k nasazení aplikace do produkčního prostředí. Tehdy model začne používat data, která dosud neměl k dispozici, pro vyvozování závěrů nebo poskytování dalších poznatků. Tento krok se označuje jako inference a představuje okamžik, kdy iniciativa AI začne vytvářet hodnotu. Využití zdrojů a náklady spojené s inferencí převyšují náklady na trénink modelu, i když nabíhají po malých krůčcích: inference má totiž nároky na výpočetní a úložné kapacity neustále a potenciálně v obrovském měřítku; představte si miliony uživatelů přistupujících k chatbotu pro obsluhu zákazníků.
Základní úložiště používané pro inferenci musí mít vysoký výkon. Je to klíčové pro poskytování včasných výsledků a také pro snadné škálování, aby bylo možné splnit požadavky na ukládání dat, která jsou do modelu vkládána za účelem uchovávání záznamů a poskytování dat pro jeho rekvalifikaci. Kvalita výsledků inference přímo souvisí s kvalitou trénovaného modelu a souboru tréninkových dat. Povaha generativní umělé inteligence ovšem způsobila, že přesnost ve fázi inference poklesla. Chyby, označované jako halucinace, se nyní objevují poměrně často. Tyto nepřesnosti způsobily problémy, které se často dostaly na titulní stránky médií.
Zlepšení přesnosti
Předpokládalo se, že uživatelé ChatGPT si brzy sami uvědomí důležitost podoby dotazu zadaného do modelu. Dobře strukturovaný komplexní dotaz může vést k mnohem přesnější odpovědi než strohé zadání. To vedlo ke konceptu „promptního inženýrství“ (pompt zde znamená vstupní text, „příkazový řádek“), kdy je modelu jako dotaz poskytnut rozsáhlý dobře sestavený soubor dat, jenž má přinést optimální výstup.
Alternativním přístupem, který dnes ovšem nabývá na významu, je generování odpovědi rozšířené o vyhledávání (Retrieval Augmented Generation, RAG). RAG rozšiřuje dotaz uživatele o vlastní data organizace v podobě kontextu specifického pro daný případ použití pocházejícího přímo z vektorové databáze, jako je Chroma nebo Milvus. Ve srovnání s promptním inženýrstvím přináší RAG lepší výsledky a výrazně snižuje možnost halucinací AI.
Přístup RAG je závislý na vektorizaci dat organizace, což umožňuje jejich integraci do celkové architektury. U vektorových databází často dochází k výraznému nárůstu velikosti datové sady ve srovnání se zdrojem, a to až 10krát, a jsou navíc velmi citlivé na výkon – to proto, že uživatelská zkušenost přímo souvisí s dobou odezvy dotazu na vektorovou databázi. Základní úložiště má proto z hlediska výkonu a škálovatelnosti při úspěšné implementaci přístupu RAG důležitou roli.
Energetická hádanka umělé inteligence
V posledních několika letech rostou náklady na elektřinu po celém světě a nic nenasvědčuje zpomalení tohoto trendu. Vzestup generativní umělé inteligence navíc znamená, že energetické potřeby datových center se mnohonásobně zvýšily. Podle
odhadů Mezinárodní agentury pro energii (IEA) představovala v roce 2022 spotřeba energie související s AI, datovými centry a kryptoměnami téměř 2 % celosvětové poptávky po energii, přičemž do roku 2026 by se tyto energetické nároky mohly zdvojnásobit. Částečně je to způsobeno vysokými energetickými požadavky grafických procesorů, které zatěžují datová centra a vyžadují 40-50 kilowattů na jeden rack – což je daleko za možnostmi mnoha datových center.
Z těchto důvodů je zásadní zvyšovat energetickou efektivitu v rámci datového centra jako celku. Znamená to, že infrastruktura, jako je datové úložiště typu all-flash, hraje zásadní význam pro řízení spotřeby energie a prostoru, protože každý watt ušetřený na úložišti může pomoci napájet více grafických procesorů. S některými technologiemi all-flash úložišť je možné dosáhnout až 85% snížení spotřeby energie a ušetřit až 95 % místa v racku oproti konkurenčním nabídkám. Taková úspora představuje významnou hodnotu, protože jde o klíčovou součást ekosystému umělé inteligence.
Datová úložiště jsou součástí celkového nasazení AI
Potenciál umělé inteligence je téměř nepředstavitelný. Mají-li však modely AI přinášet výsledky, je třeba pečlivého přístupu napříč jednotlivými fázemi jejich trénování (ať už jde o základní trénování nebo jemné ladění), aby výsledkem bylo přesné a škálovatelné odvozování (inference). Přijetí přístupu RAG lze využít k dalšímu zlepšení kvality výstupů.
Je zřejmé, že ve všech fázích nasazování GeinAI představují data klíčový parametr. Flashové úložiště je nezbytné pro zajištění transformačního dopadu AI na podnikání a společnost, protože nabízí bezkonkurenční výkon, škálovatelnost a spolehlivost. Úložiště typu flash podporuje potřebu systémů AI přistupovat k nestrukturovaným datům v reálném čase, usnadňuje trénování i inferenci a zároveň snižuje spotřebu energie a emise uhlíku. Ze všech těchto důvodů jsou moderní úložiště pro efektivní a udržitelnou infrastrukturu AI opravdu zásadní.