- Přehledy IS
- APS (20)
- BPM - procesní řízení (23)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (32)
- CRM (51)
- DMS/ECM - správa dokumentů (20)
- EAM (17)
- Ekonomické systémy (68)
- ERP (76)
- HRM (28)
- ITSM (6)
- MES (32)
- Řízení výroby (36)
- WMS (29)
- Dodavatelé IT služeb a řešení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (38)
- Dodavatelé CRM (33)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (69)
- Informační bezpečnost (50)
- IT řešení pro logistiku (45)
- IT řešení pro stavebnictví (26)
- Řešení pro veřejný a státní sektor (27)
Tematické sekce
ERP systémy
CRM systémy
Plánování a řízení výroby
AI a Business Intelligence
DMS/ECM - Správa dokumentů
HRM/HCM - Řízení lidských zdrojů
EAM/CMMS - Správa majetku a údržby
Účetní a ekonomické systémy
ITSM (ITIL) - Řízení IT
Cloud a virtualizace IT
IT Security
Logistika, řízení skladů, WMS
IT právo
GIS - geografické informační systémy
Projektové řízení
Trendy ICT
E-commerce B2B/B2C
CAD/CAM/CAE/PLM/3D tiskBranžové sekce
![]() | Přihlaste se k odběru zpravodaje SystemNEWS na LinkedIn, který každý týden přináší výběr článků z oblasti podnikové informatiky | |
| ||
Partneři webu
Scrapování pomocí AI botů
přináší nové výzvy pro poskytovatele webů
Uživatelé čím dál více vyhledávají informace pomocí AI, která je pro ně automaticky získává, třídí a využívá z veřejně dostupných webových stránek. Toto takzvané scrapování však na weby vytváří velký nápor, který může mít i parametry kybernetického útoku. Umělá inteligence zároveň často přebírá obsah bez povolení ze strany webu. Jejich provozovatelé se proto scrapování snaží zakázat, některé AI platformy je přesto obcházejí.

V souvislosti s umělou inteligencí se dnes skloňují zejména výhody, o něco méně jsou zmiňovány potenciální problematické aspekty. Jedním z nich je takzvané scrapování pomocí AI botů, tedy automatické získávání dat z webů, typicky v případě, kdy uživatel vyhledává pomocí AI modelu konkrétní informace v otevřených zdrojích. Pro poskytovatele webů to znamená v řadě případů extrémní zátěž. „V praxi jsme se u jednoho z našich klientů setkali s tím, že se jeho web musel během několik dní vypořádat se 120 tisíci dotazů od jediného AI bota,“ řekl Martin Michálek ze společnosti Pagespeed.ONE, která se zaměřuje na měření a optimalizaci rychlosti webů.
AI někdy doluje data z webů tak intenzivně, že její nápor má parametry kybernetického útoku.
„Když se například uživatel zeptá ChatGPT na něco, co vyžaduje procházení internetu, model si obsah z webů stáhne v reálném čase. Běžně na jeden dotaz projde třeba deset stránek i více, z toho několik může být na jednom webu. Na běžném sdíleném webhostingu to může způsobit krátké zpomalení nebo zpoždění odpovědí pro ostatní návštěvníky,“ vysvětlil princip Ivan Sárközi z obchodního oddělení poskytovatele hostingu WEDOS.AI nemá index a stahuje obsah pořád dokola
To je přitom zásadní rozdíl oproti vyhledávačům, které stránku načtou pouze jednou. „Pak ji zařadí do indexu a dál pracují s uloženými daty. Jazykové modely jako ChatGPT žádný index nemají, naopak při každém dotazu stahují obsah znovu a znovu. To může být problém i u menších webů,“ doplnil Sárközi.
Některé konkrétní příklady přitom ukazují, že chování AI botů může často nést podobné znaky jako kybernetický útok. „Setkali jsme se s tím, že přístup z infrastruktury AI modelu Claude byl natolik intenzivní, že začal zpomalovat nebo i krátkodobě odstavovat několik webů na sdíleném hostingu. Technicky to odpovídalo menšímu DDoS útoku, tak k tomu při řešení přistupovali i technici,“ řekl Sárközi.

Právní aspekty scrapování
Problémem scrapování bývá to, že k němu často dochází bez jakéhokoliv povolení ze strany provozovatelů webů. „Z právního hlediska může scraping zasahovat do autorských a souvisejících práv, případně do práv k databázím. Zejména v případě
takzvaného dolování z textu a dat. U obecnějších forem scrapingu může za určitých okolností dojít také k porušení smluvních podmínek, například pokud je přístup ke službě vázán na souhlas s nimi. Docházet může i k nekalé soutěži, jako je porušení obchodního tajemství, nebo neoprávněnému zpracování osobních údajů,“ řekl Jiří Čermák z advokátní kanceláře Jansa, Mokrý, Otevřel & partneři.
takzvaného dolování z textu a dat. U obecnějších forem scrapingu může za určitých okolností dojít také k porušení smluvních podmínek, například pokud je přístup ke službě vázán na souhlas s nimi. Docházet může i k nekalé soutěži, jako je porušení obchodního tajemství, nebo neoprávněnému zpracování osobních údajů,“ řekl Jiří Čermák z advokátní kanceláře Jansa, Mokrý, Otevřel & partneři.Zákazy nejsou řešením, obranu je třeba postavit chytře
Některé weby a sociální sítě se proto snaží scrapování zakázat, podle odborníků jim však tento přístup může paradoxně uškodit, jak už ukázaly
příklady v minulosti. „V dávných dobách podobně někteří zakazovali přístup botům od Googlu. Až pozdě zjistili, že je konkurence předběhla, protože Google jim přinášel cennou návštěvnost. Podobně je to teď s novou vlnou AI botů na webu. Rozhodně nedoporučuji paušálně přístupy zakazovat a dělat to jen v opodstatněných případech,“ řekl Martin Michálek.
příklady v minulosti. „V dávných dobách podobně někteří zakazovali přístup botům od Googlu. Až pozdě zjistili, že je konkurence předběhla, protože Google jim přinášel cennou návštěvnost. Podobně je to teď s novou vlnou AI botů na webu. Rozhodně nedoporučuji paušálně přístupy zakazovat a dělat to jen v opodstatněných případech,“ řekl Martin Michálek.Navíc je podle něj na zákazy již pozdě. „Všechno, co šlo, tak už AI boty scrapováno bylo, případně se tak stane na jiných podobných webech. Nehledě na to, že někteří AI boti – například velmi známý AI nástroj Perplexity – poměrně vychytrale obcházejí všechny zákazy,“ řekl Michálek.
Klíčová je tak podle něj ochrana jednotlivých webů, která by měla zahrnovat rozeznání AI botů a jejich případné zablokování či zpomalení. Kromě toho mohou být důležitými prvky také skrytí e-mailových adres či ochrana proti načítání obrázků z jiných stránek. Podobně se na problém dívá i marketingový specialista poskytovatele hostingu FORPSI Roman Pech, podle kterého zákazy samy o sobě problém nevyřeší. „Důležitější je kombinace technických opatření a právních kroků,“ doplnil.AI Act nastaví hranice
Jedním z právních zásahů by měla být připravovaná evropská legislativa pod označením AI Act. „Ta scraping sám o sobě nezakazuje, ale vyžaduje transparentnost ohledně dat použitých pro trénink velkých jazykových modelů a obecných modelů umělé inteligence, která jsou často získávána prostřednictvím vytěžování textu a dat,“ upřesnil advokát Jiří Čermák. Začátek platnosti AI Actu vyhlíží i poskytovatelé hostingu. „Dá se očekávat, že scrapování bude legální jen v určitých mezích – například pro výzkum nebo s výslovným souhlasem. Pro firmy to znamená potřebu více hlídat, odkud data pocházejí a jak jsou využívána,“ nastínil Roman Pech.
Sám přitom vidí budoucnost v regulovaném, transparentním a férovém scrapování. AI podle něj bude stále více potřebovat kvalitní data a scrapování je jedním ze způsobů, jak je získat. „Pokud se podaří nastavit jasná pravidla – technická i právní – může scrapování přinášet hodnotu bez toho, aby poškozovalo původní autory obsahu,“ uvedl. Podobný pohled přináší i advokát Jiří Čermák, podle něj zůstane scrapování běžnou a rozšířenou praxí, byť ve více regulované a technicky kontrolované podobě.
Scrapování pomocí AI botů je fenomén, se kterým se musíme smířit
Odborníci zaměřující se na rychlost a výkon webu vnímají scrapování pomocí AI botů jako nový standard. „Je to fenomén, se kterým se musíme smířit. Neodejde sám od sebe pryč. AI boti a agenti budou stále schopnější a kromě pasivní konzumace textu a multimédií budou schopní plnit úkoly jako objednání letenek nebo nákup na eshopu,“ řekl Martin Michálek.
Zásadní v tomto směru proto bude zejména tlak uživatelů AI nástrojů, kteří budou pokročilé funkce zvyšující komfort vyžadovat. „V takových případech už nebude možné provoz jednoduše blokovat, protože zákazníci tyto interakce budou chtít,“ uzavřel Sárközi.
Časopis IT Systems / Odborná příloha
Kalendář akcí
Formulář pro přidání akce
RSS kanál
| Po | Út | St | Čt | Pá | So | Ne |
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
IT Systems podporuje
| 26.11. | Webinář Zaostřeno na správu a provoz IS |
| 28.11. | CONTROLLING A BI PRAKTICKY - Webové GIST Aplikace pro... |
Formulář pro přidání akce









