facebook LinkedIN LinkedIN - follow
IT SYSTEMS 5/2024 , CRM systémy , AI a Business Intelligence , E-commerce B2B/B2C

Voiceboti 2.0

Jací jsou hlasoví asistenti v éře velkých jazykových modelů?

Martin Čermák


Uvedení čtvrté verze velkého ja­zy­ko­vé­ho modelu GPT spustilo vlnu změn. A také debat o tom, zda vel­ké jazykové modely a do­stup­nost gene­ra­tiv­ní AI nahradí některé za­ve­de­né pro­fe­se, postupy a řešení. Změnám se nevyhnuli ani hlasoví asistenti. Jak GPT-4 a další velké jazykové modely změnily přístup k návrhu a funkcionalitě chatbotů a voicebotů?


Napadlo vás někdy, zda by bylo možné vzít třeba GPT-4 nebo jiný velký jazykový model a využít ho jako digitálního asistenta v oddělení zákaznického servisu? Demokratizace softwaru a dostupnost podobných technologií si o takový krok tak trochu říkají. Ač samozřejmě přinášejí spoustu výhod, musí se s nimi pracovat chytře. Abyste dosáhli kýženého výsledku, je třeba tyto technologie umět zkrotit. Jinak se totiž utrhnou ze řetězu a v roli hlasového asistenta nejenže problém zákazníka nevyřeší, ale třeba mu prozradí i nevhodné informace. Na druhé straně dokážou však schopnosti voicebotů výrazně posunout.

Voiceboti s LLM? Přirozenější, chytřejší a akčnější

Představte si, že voláte na zákaznickou linku své banky. Ztratili jste totiž kartu a potřebujete ji co nejdříve zablokovat. Na druhé straně se ozve hlasový asistent. Klasický voicebot bez LLM, tedy bez propojení na velký jazykový model, jakým je například GPT-4, dokáže z vaší prosby pochopit téma, tedy zablokování karty. A na dotaz začne reagovat podle předem daného scénáře. Odpoví vám například: „Poradím vám, jak zablokovat vaši kartu.“ Voicebot s LLM dokáže vést mnohem přirozenější konverzaci, rozpoznat sentiment a celkově se vcítit do vaší situace. A jeho odpověď na stejný dotaz tak může znít: „To mě mrzí, musí to být pěkně nepříjemná situace. Hned to společně vyřešíme.“ A pokud je LLM integrované na firemní systém, tak pak je voicebot skutečně schopen kartu fyzicky sám zablokovat.

Voicebot s LLM dokáže vést mnohem přirozenější konverzaci, rozpoznat sentiment a celkově se „vcítit“ do vaší situace.

Schopnost přirozenější konverzace ale není jediný způsob, jak velké jazykové modely obohacují schopnosti voicebotů. Dalším výrazným trendem je takzvaný RAG – retrieval augmented generation. Ten umožňuje najít ve velkém množství textů konkrétní odpověď a tu pak věcně zformulovat. Uvedu jeden jednoduchý příklad z využití pro interní potřeby firmy. Zeptáte se voicebota na to, proč třeba nemůžete chodit do práce v pantoflích. Voicebot najde článek na intranetu nebo v interní wikipedii, ve kterém se nevyskytuje ani slovo práce, ani pantofle. Zato se v něm pojednává o doporučené pracovní obuvi. Voicebot i tak pochopí, na co se ptáte a kde najít správnou odpověď. Článek vypátrá mezi tisíci dalších a pomocí LLM zformuluje informace z článku do vhodné odpovědi.

Zkrocení divé AI

Velké jazykové modely neposouvají jen schopnosti voicebotů, ale výrazně mění i jejich vývoj. Když vyvíjíte hlasového asistenta bez LLM, většinou postupujete tak, že nejdříve vytvoříte stromovou strukturu a postupně voicebota učíte, aby dokázal zodpovídat jednotlivé dotazy. Na začátku neumí totiž nic. U voicebota s LLM je situace opačná. Od prvního dne dokáže mluvit a ví téměř všechno. Říkáte si, že je to skvělé? Ne tak docela. Firmy nepotřebují upo­ví­da­né voiceboty pro nezávazné konverzace. Potřebují hlasové asi­s­ten­ty, kteří zvládnou vyřešit zákazníkův problém. A při tom je třeba postupovat opět podle určitého scénáře. Proto musíte voicebotovi vymezit hranice, aby se držel tématu. Naučit voicebota s LLM, aby se choval tak, jak potřebujeme, představuje právě tu největší výzvu. Samotná integrace je proti tomu celkem jednoduchý krok.

U trénování voicebota s LLM už neprobíhá učení na základě zadání otázka-odpověď.

Jak tedy probíhá trénování voicebotů? Při učení klasické konverzační AI si nejdříve vytvoříte sadu nejčastějších požadavků k danému tématu. Jedná se o takzvaný intent – sadu vět, jak se mohou lidé na toto téma zeptat. V praxi se pak odpovědi voicebota manuálně třídí a vyhodnocují a do datové sady se nadále doplňují další příklady otázek od uživatelů. U trénování voicebota s LLM už ale neprobíhá učení na základě zadání otázka-odpověď. Technologie totiž dokáže sama od sebe interpretovat požadavky uživatele a nemusí mít už k dispozici pevně dané cvičné otázky, které má umět rozpoznat. Voicebota je naopak třeba korigovat, aby nemluvil scestně. K tomu, aby dokázal voicebot porozumět a efektivně reagovat na různorodé dotazy zákazníků, je nutné si dobře definovat prompt neboli zadání pro umělou inteligenci. Správná konfigurace velkých jazykových mo­de­lů tvoří zásadní a zároveň nejsložitější část tréninku. Proto spo­leč­nos­ti, které s voiceboty pracují, potřebují konverzační designéry, kteří vědí, jak voiceboty konfigurovat, aby fungovali správně.

Dělba práce v době robotické

Díky velkým jazykovým modelům dokážou být voiceboti mnohem chytřejší a přirozenější, ovšem bez pomocné ruky člověka se úplně neobejdou. Aktuálnost a schopnost vyhovět zákaznickým potřebám nelze zajistit automaticky. Stále je třeba provádět analýzy, vyhodnocovat chyby v konverzacích a voicebota trénovat. Neznamená to však, že by zde lidská práce přebila výhody automatizace – právě naopak. Dobré nastavení a kontrola voicebota přispívá k tomu, aby se činnosti zautomatizovaly a ušetřily firmám čas, kapacity a peníze. Proto je třeba také dobře si rozdělit jednotlivé úkoly mezi voicebota a jeho lidského kolegu.

Stále je třeba provádět analýzy, vyhodnocovat chyby v konverzacích a voicebota trénovat. A vhodně rozdělit úkoly mezi voicebota a člověka.

Rutinní činnosti je tedy lepší směřovat na voicebota, zato ty komplexnější přenechat lidem. Co se rozumí rutinním úkolem? Například dotaz zákazníka, kde je jeho zásilka. Voicebot se ho zeptá na jméno, číslo zásilky, poté se napojí na systém API (aplikační programové rozhraní, které slouží k předávání dat mezi aplikacemi), vyčte název depa a zjistí odhadovanou dobu dodání. Pokud však dotaz zákazníka není tak úplně jednoznačný či chce například řešit reklamaci, je lepší ho přepojit na živého operátora. Ale i u komplexnějších úkolů může být voicebot užitečný. Když přesouvá úkol na operátora, předává mu i celou konverzaci, kterou se zákazníkem vedl. Ten nemusí svůj požadavek znovu opakovat a operátor může jít rovnou k věci. Velkou pomoc při tomto kroku představuje právě technologie LLM, díky níž lze například celou konverzaci shrnout a vypíchnout jen důležité body. A operátorovi tak šetří čas při pročítání rozhovoru mezi voicebotem a zákazníkem.

Nezapomínejme na lidský aspekt

Velké jazykové modely bezpochyby mění schopnosti voicebotů, ale i jejich vývoj a způsob učení. Integrace takového hlasového asistenta do stávajících podnikových systémů je však kapitolou samou o sobě. Co patří mezi nejčastější překážky? Velmi důležitá je otázka bez­peč­nos­ti – ohlídat si, odkud kam data putují, a ošetřit všechny přístupy. A pokud například voicebot pracuje s daty uloženými v cloudu, je třeba být obezřetnější, než kdyby se jednalo o místní úložiště.

Dalším, někdy i dost palčivým, tématem je otázka lidských zdrojů a priority IT oddělení. Řešení tak lze integrovat za pár dní, ale i za několik týdnů. Nejde ani tak o technickou náročnost řešení jako spíše o kapacity, nakolik se mohou lidé integraci věnovat. Obdobná situace ale platí i při „údržbě“. Je ideální, když se o voicebota někdo stará, kontroluje ho a monitoruje. Existuje sice spousta systémů, které například usnadní práci s analytikou, lidský dohled je však nenahraditelný – přestože pracujeme s AI. Lidský faktor přináší jistotu, že řešení běží, jak má. Zároveň tato investice přispívá k tomu, abychom jednotlivé úkoly automatizovali ještě více efektivně. A přesně to od AI chceme.

Martin Čermák Martin Čermák
Autor článku je spoluzakladatel a CTO technologické firmy Vocalls.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.