A Neurális Hálózat Megtanulta Videókat Generálni A - Alternatív Nézet

A Neurális Hálózat Megtanulta Videókat Generálni A - Alternatív Nézet
A Neurális Hálózat Megtanulta Videókat Generálni A - Alternatív Nézet

Videó: A Neurális Hálózat Megtanulta Videókat Generálni A - Alternatív Nézet

Videó: A Neurális Hálózat Megtanulta Videókat Generálni A - Alternatív Nézet
Videó: Step 1 - Add Employees & Rates 2024, Lehet
Anonim

A mesterséges intelligencia szkriptált videókat hoz létre - eddig rövidek és homályosak, de egy nap önmagában helyettesíti az egész filmes stúdiót.

A neurális hálózatok már elég jól (és sok esetben jobbak, mint az emberek) képesek felismerni egy képen látható mintákat, és képesek általánosságban leírni a teljes jeleneteket. A generációs neurális hálózatok végrehajtják a fordított transzformációt és képeket képezhetnek a leírásuk alapján, vagy megjósolhatják a következő keretet az előzőek alapján.

A belga fejlesztők még tovább haladtak, kombinálva ezeket a képességeket egy olyan rendszerbe, amely "a semmiből" készít videókat, a gépi tanulás és a forgatókönyv szövegének saját tapasztalatai alapján. Tinne Tuytelaars beszélt erről a Mesterséges Intelligencia Fejlesztési Szövetség (AAAI) Egyesült Államokban tartott ülésén.

A neurális hálózat két szakaszban működik - Tinne szerint úgy, mintha egy ember alkotó folyamatát imitálná: az első szakaszban minden kép homályos, hozzávetőleges "vázlata" alakul ki, majd a részleteket meghatározzák és hozzáadják. Egy ilyen rendszer egyik fontos része egy diszkriminatív ideghálózat, amely összehasonlítja az eredményt az "adott" forgatókönyvnek megfelelő "valódi" videókkal, és lehetővé teszi annak minőségének értékelését, javítva a rendszer generáló részének munkáját.

A neurális hálózatot 10 jelenetnél ("golfozni a füvön játszani", "a tengeri kitesurfingot" stb.) Képzték, megtanultak elválasztani a tevékenységeket és a körülményeket egymástól, és bármilyen módon összekapcsolhatják őket, például videókat készítve. "Golf a medencében":

Image
Image

vagy "vitorlázás a hóban":

Image
Image

Promóciós videó:

Az ilyen animációk minősége természetesen még mindig messze nem elfogadható: a körülbelül egy másodpercig tartó „videók” mindössze 32 képkockából állnak, mérete 64x64 pixel.

Ugyanakkor ugyanolyan magabiztosan garantálható, hogy ezek a számok gyorsan javulnak, mivel nem olyan régen maga a mozi csak sáros, rángatózó és hülye képpel büszkélkedhet. Ha egy ilyen neurális hálózat igazán gyors és hatékony lehet, a Hollywood véget ér: elegendő lesz a forgatókönyv készítése, és a film kész. Ez a lehetőség hasznos lehet nagy sorozat létrehozásában más idegi hálózatok kiképzéséhez, valamint új algoritmusok létrehozásához a streaming video tömörítéséhez és továbbításához.

Szergej Vasziljev