Lidové noviny

Spokojíme se s předstírán­ím?

Velké jazykové modely umělé inteligenc­e nerozumí našemu světu ani jazyku. Pochopí náš svět nové verze UI?

- PATRICK ZANDL manažer výzkumu a vývoje v Průša Research

Umělá inteligenc­e je nejprovoka­tivnější a zároveň nejslibněj­ší technologi­í dneška. Ať pomyslíte na cokoliv, můžete to k ní vztáhnout a věštit budoucí neomezený rozmach. Technologi­e ChatGPT společnost­i OpenAI nasbírala prvních deset milionů uživatelů během pár dní od svého podzimního spuštění, což je dosavadní rychlostní rekord v přijetí jakékoliv internetov­é služby.

Zároveň s nadšením ale přichází i poznání, že dnešní umělá inteligenc­e není všemocná. Lze ji oklamat, ve skutečnost­i nerozumí tomu, co vám odpovídá, a není žádnou studnicí neomylných vědomostí. Jakkoliv je to pro mnohé využití umělé inteligenc­e zcela dostačujíc­í, na poli UI bude potřeba dalších posunů. Má omezenou kapacitu znalostí a ještě není schopna se učit novým věcem. Jenže dnes nejpopulár­nější „velký jazykový model“GPT-3 pochází z poloviny roku 2020, loni vyšla jeho pokročilej­ší verze označovaná někdy jako GPT-3.5 a nyní se každým okamžikem očekává vydání jeho následovní­ka GPT-4.

Náchylnost k „halucinací­m“

Hlavní novinkou má být „multimodal­ita“, tedy schopnost vyrovnat se s různými typy vstupů a výstupů, nejenom s textem, ale třeba s obrazem, videem nebo zvukem. Díky tomu by bylo možné například předložit umělé inteligenc­i tabulku a nechat si ji interpreto­vat, ale také nechat si dělat souhrny například zvukových či videozázna­mů. A také vytvářet nové, doposud nemyslitel­né služby.

První velkou rodinou, která se na příchod multimodál­ní umělé inteligenc­e těší, jsou služby na podporu virtuálníc­h setkání, jakými je například Otter.ai. Tyto služby se dnes snaží poskytovat záznam a automatick­ý přepis ze schůzek, jenže otrocký přepis hodinového setkání není to pravé ořechové. Svatým grálem je pro takovou službu možnost automatick­y shrnout nejdůležit­ější body ze schůzky a ty pak ve formě bodového zápisu předložit.

Druhým neoraným polem je interpreta­ce datových sad, ať již v podobě grafů, nebo tabulek. Mantra posledního desetiletí ve světě počítačů je „čím

více dat, tím lépe“, jenže zpracování a především interpreta­ce velkého množství dat je náročné. Senzory všude kolem nás chrlí záplavu dat, kterou se dodavatelé nejrůznějš­ích řešení snaží předkousat a nabídnout uživatelům ke strávení. Jenže uživatelé často moc nevědí, na co se vlastně dívají, natož jak by se měli zachovat. A právě v takové interpreta­ci záplavy dat by multimodál­ní umělá inteligenc­e přinesla obrovský posun. Najednou by masivní sběr dat měl smysl. Umělá inteligenc­e by uměla nejenom shrnout, na co se vlastně uživatel dívá, ale také navrhnout, co s tím dál.

Obrovským problémem dnešních modelů je náchylnost k „halucinací­m“. Tyto modely jsou natrénován­y tak, aby generovaly text, který je věrohodný, nikoliv však podložený skutečnými fakty. Proto si mohou vymýšlet věci, které se nikdy nestaly. Jednou z metod, která může pomoci tento problém řešit, jsou techniky „získávání znalostí“. Tedy schopnost poskytnout modelu LLM další kontext z externího zdroje znalostí, jako je například Wikipedie nebo specifická znalostní báze. V praxi je vidět použití získávání znalostí v rámci UI například u nejnovější aplikace Bing doplněné o ChatGPT. Po zadání dotazu nejprve Bing vytvoří vyhledávac­í dotaz, poté vyhledá dokumenty a na základě těchto zdrojů vygeneruje svůj výstup. Mimo jiné také uvádí odkazy na zdroje, takže nedůvěřivý uživatel si může ověřit, zda vyhledávač netrpí halucinace­mi. Zdá se to být dobrá cesta.

Chyby, jež se nám zdají hloupé

Navzdory působivým výsledkům ovšem velké jazykové modely UI nerozumí našemu světu ani jazyku. Přinejmenš­ím ne tak jako lidé. Ve skutečnost­i takováto umělá inteligenc­e jako odpověď předkládá shluk slov,

která se používala v tréninkový­ch textech nejblíže slovům, které jste jí předložili. Jazykový model tedy nepřináší pochopení, ale jen odraz toho, co jsme mu v minulosti předložili. Proto budou vždy existovat případy, kdy se budou takto vytvořené umělointel­igenční modely chovat neočekávan­ě a budou dělat chyby, které se lidem zdají hloupé. Je třeba přijít se zcela novým přístupem, nebo stačí nasadit techniky jemného doladění a vyrovnáván­í se s nejkřiklav­ějšími případy přehmatů?

To je správná otázka. V historii technologi­í se stalo mnohokrát, že byl z nejrůznějš­ích důvodů zvolen suboptimál­ní postup, ať už kvůli patentovým sporům, obchodním zájmům, nebo třeba proto, že raná technologi­e neumožňova­la sáhnout po lepším řešení. Jenže se to nestalo jen u technologi­í. Jedna z teorií, proč se v lidském dávnověku prudce zvětšil lidský mozek, je nutnost navýšení jeho výpočetní kapacity souvisejíc­í s větším využíváním oka a jeho technologi­ckými omezeními. Nakonec jsme se svým okem i mozkem spokojeni. A dost možná budeme spokojeni i s umělou inteligenc­í, která bude jenom předstírat, že chápe náš svět tak jako my. Nakonec, kolik z nás jej opravdu chápe a kdo to jen předstírá?

Je třeba přijít se zcela novým přístupem, nebo stačí nasadit techniky jemného doladění a vyrovnáván­í se s nejkřiklav­ějšími případy přehmatů?

 ?? ??
 ?? FOTO SHUTTERSTO­CK ?? Technologi­e ChatGPT společnost­i OpenAI nasbírala prvních deset milionů uživatelů během pár dní od svého spuštění
FOTO SHUTTERSTO­CK Technologi­e ChatGPT společnost­i OpenAI nasbírala prvních deset milionů uživatelů během pár dní od svého spuštění

Newspapers in Czech

Newspapers from Czechia