Martin Kysilka, 23. BŘEZNA 2018
Co to je: Scénáristé, jejichž scénář byl zamítnut filmovými studii, budou mít brzy možnost zfilmovat své dílo prostřednictvím nového algoritmu, který umí vygenerovat filmy i z krátkých scénářů. I když se nebude jednat o oskarové snímky, technologie může najít obrovské uplatnění i mimo zábavní průmysl, například při rekonstrukci místa nehody nebo trestného činu.
Umělá inteligence se v rozpoznávání obrazů a jejich označování čím dál tím víc zdokonaluje. Takzvané generativní algoritmy naopak dokážou ze slov, názvů či mozkových skenů obrazy generovat. Některé jsou dokonce i schopny z jednoho obrazu předvídat následující obraz. Jedná se však o první algoritmus, který by dokázal realisticky ztvárnit video z pouhého textu.
Algoritmus je založen na principu strojového učení – technologie umělé inteligence, která umožňuje počítačovému systému učit se na specifických sadách dat. Učením v daném kontextu rozumíme takovou změnu vnitřního stavu systému, která zefektivní schopnost přizpůsobení se změnám okolního prostředí.
V tomto případě se jedná o umělou neuronovou síť – sérii vrstev výpočetních prvků, které zpracovávají data podobně jako mozkové nervové buňky.
Software během trénování hodnotí svůj výkon po každém pokusu. Hodnocení pak cirkuluje přes miliony sítí, které tak vylepší budoucí výpočty.
Tato síť má dvě stádia, obě navržena tak, aby napodobovala tvůrčí proces člověka. Nejdřív vygeneruje hrubou osnovu v podobě rozmazaného pozadí s rozmazanou skrvnou uprostřed, ve které se bude odehrávat hlavní děj. Ve druhé fázi program z rozmazané stopy a textu vyprodukuje krátké video. Druhá síť funguje jako kritik. Vedle vygenerovaného videa, které například znázorňuje plachtění na moři, neurální síť sleduje reálné video plachtění a poté vybere to pravé. Postupně se tak zlepšuje a stává se stále přísnějším kritikem v porovnávání obou snímků. Vygenerovaný snímek je tak po každé analýze opět o něco přesnější. Algoritmy tak postupně nastavují stále vyšší laťku pro generativní síť.
Současná videa mají pouze 32 snímků, trvají pouhou sekundu a mají velikost poštovní známky (64 x 64 pixelů). Cokoliv většího snižuje přesnost. Podle vedoucího týmu Yitonga Li z Duke University, je dalším krokem naučit systém rozpoznávat lidskou postavu. S její identifikací má algoritmus v současné době problém.
Dopad: Hlavní využití algoritmu by mělo být především mimo Hollywood. Tento generativní algoritmus by mohl například generovat stejná tréninková data, na kterých sám vyrostl. Realistické videoklipy by mohly velmi pomoct autonomním vozidlům připravit se na nebezpečné situace, které se v reálném životě moc často nestávájí, ale je potřeba, aby na ně samořídící auta byla připravena. Vytrénované programy, které budou chápat vizuální svět, se stanou klíčovou technologií pro rozhodovací a záchranářské technologie. Samořídící auta by tak jednou mohla preventivně předvídat, odkud vyjede motorkář.
Hollywoodský blockbooster vygenerovaný umělou inteligencí je zatím hodně daleko, avšak autonomní doprava tu bude co nevidět a technologie jako je tato, ji pomůžou se rychleji přizpůsobit.
Originální článek