Spokojíme se s předstíráním?
Velké jazykové modely umělé inteligence nerozumí našemu světu ani jazyku. Pochopí náš svět nové verze UI?
Umělá inteligence je nejprovokativnější a zároveň nejslibnější technologií dneška. Ať pomyslíte na cokoliv, můžete to k ní vztáhnout a věštit budoucí neomezený rozmach. Technologie ChatGPT společnosti OpenAI nasbírala prvních deset milionů uživatelů během pár dní od svého podzimního spuštění, což je dosavadní rychlostní rekord v přijetí jakékoliv internetové služby.
Zároveň s nadšením ale přichází i poznání, že dnešní umělá inteligence není všemocná. Lze ji oklamat, ve skutečnosti nerozumí tomu, co vám odpovídá, a není žádnou studnicí neomylných vědomostí. Jakkoliv je to pro mnohé využití umělé inteligence zcela dostačující, na poli UI bude potřeba dalších posunů. Má omezenou kapacitu znalostí a ještě není schopna se učit novým věcem. Jenže dnes nejpopulárnější „velký jazykový model“GPT-3 pochází z poloviny roku 2020, loni vyšla jeho pokročilejší verze označovaná někdy jako GPT-3.5 a nyní se každým okamžikem očekává vydání jeho následovníka GPT-4.
Náchylnost k „halucinacím“
Hlavní novinkou má být „multimodalita“, tedy schopnost vyrovnat se s různými typy vstupů a výstupů, nejenom s textem, ale třeba s obrazem, videem nebo zvukem. Díky tomu by bylo možné například předložit umělé inteligenci tabulku a nechat si ji interpretovat, ale také nechat si dělat souhrny například zvukových či videozáznamů. A také vytvářet nové, doposud nemyslitelné služby.
První velkou rodinou, která se na příchod multimodální umělé inteligence těší, jsou služby na podporu virtuálních setkání, jakými je například Otter.ai. Tyto služby se dnes snaží poskytovat záznam a automatický přepis ze schůzek, jenže otrocký přepis hodinového setkání není to pravé ořechové. Svatým grálem je pro takovou službu možnost automaticky shrnout nejdůležitější body ze schůzky a ty pak ve formě bodového zápisu předložit.
Druhým neoraným polem je interpretace datových sad, ať již v podobě grafů, nebo tabulek. Mantra posledního desetiletí ve světě počítačů je „čím
více dat, tím lépe“, jenže zpracování a především interpretace velkého množství dat je náročné. Senzory všude kolem nás chrlí záplavu dat, kterou se dodavatelé nejrůznějších řešení snaží předkousat a nabídnout uživatelům ke strávení. Jenže uživatelé často moc nevědí, na co se vlastně dívají, natož jak by se měli zachovat. A právě v takové interpretaci záplavy dat by multimodální umělá inteligence přinesla obrovský posun. Najednou by masivní sběr dat měl smysl. Umělá inteligence by uměla nejenom shrnout, na co se vlastně uživatel dívá, ale také navrhnout, co s tím dál.
Obrovským problémem dnešních modelů je náchylnost k „halucinacím“. Tyto modely jsou natrénovány tak, aby generovaly text, který je věrohodný, nikoliv však podložený skutečnými fakty. Proto si mohou vymýšlet věci, které se nikdy nestaly. Jednou z metod, která může pomoci tento problém řešit, jsou techniky „získávání znalostí“. Tedy schopnost poskytnout modelu LLM další kontext z externího zdroje znalostí, jako je například Wikipedie nebo specifická znalostní báze. V praxi je vidět použití získávání znalostí v rámci UI například u nejnovější aplikace Bing doplněné o ChatGPT. Po zadání dotazu nejprve Bing vytvoří vyhledávací dotaz, poté vyhledá dokumenty a na základě těchto zdrojů vygeneruje svůj výstup. Mimo jiné také uvádí odkazy na zdroje, takže nedůvěřivý uživatel si může ověřit, zda vyhledávač netrpí halucinacemi. Zdá se to být dobrá cesta.
Chyby, jež se nám zdají hloupé
Navzdory působivým výsledkům ovšem velké jazykové modely UI nerozumí našemu světu ani jazyku. Přinejmenším ne tak jako lidé. Ve skutečnosti takováto umělá inteligence jako odpověď předkládá shluk slov,
která se používala v tréninkových textech nejblíže slovům, které jste jí předložili. Jazykový model tedy nepřináší pochopení, ale jen odraz toho, co jsme mu v minulosti předložili. Proto budou vždy existovat případy, kdy se budou takto vytvořené umělointeligenční modely chovat neočekávaně a budou dělat chyby, které se lidem zdají hloupé. Je třeba přijít se zcela novým přístupem, nebo stačí nasadit techniky jemného doladění a vyrovnávání se s nejkřiklavějšími případy přehmatů?
To je správná otázka. V historii technologií se stalo mnohokrát, že byl z nejrůznějších důvodů zvolen suboptimální postup, ať už kvůli patentovým sporům, obchodním zájmům, nebo třeba proto, že raná technologie neumožňovala sáhnout po lepším řešení. Jenže se to nestalo jen u technologií. Jedna z teorií, proč se v lidském dávnověku prudce zvětšil lidský mozek, je nutnost navýšení jeho výpočetní kapacity související s větším využíváním oka a jeho technologickými omezeními. Nakonec jsme se svým okem i mozkem spokojeni. A dost možná budeme spokojeni i s umělou inteligencí, která bude jenom předstírat, že chápe náš svět tak jako my. Nakonec, kolik z nás jej opravdu chápe a kdo to jen předstírá?
Je třeba přijít se zcela novým přístupem, nebo stačí nasadit techniky jemného doladění a vyrovnávání se s nejkřiklavějšími případy přehmatů?