Warning: Invalid argument supplied for foreach() in /www/doc/www.6dhub.cz/www/templates/6dhub/html/com_k2/default/item.php on line 37
Nový AI model umí reálně předvídat druhou část obrazu
Technologie

Nový AI model umí reálně předvídat druhou část obrazu

10.05.21

Milada Kadeřábková, 30.07. 20

V únoru roku 2019 zveřejnila výzkumná laboratoř OpenAI zprávu, že její systém umělé inteligence s názvem GPT-2  už dokáže psát přesvědčivé anglické pasáže. Člověk do systému pouze zadá začátek věty či odstavce a systém pokračuje v myšlence tak dlouho, dokud nevznikne esej s téměř lidskou koherencí.

Nyní laboratoř zkoumá, co by se stalo, kdyby byly do stejného algoritmu vloženy místo vět části obrázků. Jejich dosavadní výsledky, které v červenci 2020 dostaly čestné uznání za nejlepší pojednání na Mezinárodní konferenci o strojovém učení, otevírají nové možnosti generování obrazu. To s sebou samozřejmě nese mnoho příležitostí, ale také rizik.

V jádru je GPT-2 vlastně výkonný predikční motor. Naučil se totiž chápat strukturu anglického jazyka díky tomu, že sledoval miliardy příkladů slov, vět a odstavců ze všech koutů internetu. Nyní tak dokáže skládat slova do nových vět tím, že statisticky předpovídá pořadí, ve kterém by se měla objevit.

Vědci z OpenAI se nyní rozhodli zaměnit slova za pixely a tento algoritmus trénovat i na vytváření obrázků v ImageNet, což je nejoblíbenější obrazová banka určená pro hluboké učení. Přestože byl algoritmus původně navržen pro práci s jednorozměrnými daty (tedy s řetězci textu), odborníci zjistili, že nový model iGPT, který tento algoritmus využívá, je přesto stále schopen pochopit dvourozměrné struktury vizuálního světa. Vzhledem k posloupnosti pixelů v první polovině obrazu tak dokáže předpovídat druhou polovinu způsobem, který by i člověk považoval za rozumný.

Jak se můžete přesvědčit, výsledky predikcí jsou překvapivě působivé a ukazují nový směr v používání strojového učení bez dozoru, který se při vývoji systémů počítačového vidění zaměřuje na neoznačená data. Ačkoli tyto techniky zkoušely v polovině 20. let i dřívější systémy počítačového vidění, nakonec je přestaly používat, jelikož se strojové učení pod dohledem, které používá označená data, ukázalo jako účinnější. Výhodou učení bez dozoru každopádně je, že umožňuje systému umělé inteligence, aby se učil o světě bez nutnosti zásahu lidského faktoru, čímž se výrazně snižují nároky na manuální práci s údaji.

Skutečnost, že iGPt používá stejný algoritmus jako GPT-2, také ukazuje jeho slibnou přizpůsobivost. To je v souladu s konečnou ambicí společnosti OpenAI dosáhnout zobecnitelnější strojové inteligence. Tato metoda zároveň představuje nové možnosti vytváření takzvaných deepfake médií.

Generativní kontradiktorní sítě (GAN), nejběžnější kategorie algoritmů používaných v minulosti k vytváření padělků, musí být vyškoleny na vysoce kurátorská data. Například, pokud chcete, aby GAN vygenerovala lidskou tvář, její trénovací data by měla obsahovat pouze obličeje. IGPT se naproti tomu jednoduše naučí dostatek informací o struktuře vizuálního světa napříč miliardami příkladů, aby nakonec dokázal samostatně generovat obrazy, které v něm mohou reálně existovat. Trénink modelu je stále výpočetně nákladný, což znamená přirozenou bariéru v přístupu k němu. Tento fakt ale nemusí platit dlouho.

Společnost OpenAI nevyhověla žádosti o rozhovor, ale na interním politickém setkání, kterého se minulý rok zúčastnil časopis MIT Technology Review, člen vedení společnosti Jack Clark uvažoval o potenciálních rizicích generování stylem iGPT, včetně toho, co by se stalo, kdyby se vztahoval právě na snímky. „Asi za pět let budeme mít možnost podmíněně generovat video, a to v horizontu pěti až deseti sekund, řekl a potom popsal, jak si to představuje: „Nakrmíte systém fotografií politika a obrázkem exploze. Systém pak vytvoří video, jak by pravděpodobně mohl být tento politik explozí usmrcen.“

Tento článek je chráněn pomocí blockchainové služby Mytitle.

Související